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我 第 一 次 编程 时 ， 连 数据 压缩 是 什么 都 不 知道 ， 更 谈 不 上 认识 到 它 的 重要 性 了 。 幸 运 的 
是 ,我 的 Apple I Plus 计算 机 内 存 有 0.000 048 GB ( 约 48 KB)， 这 在 1979 年 算是 很 大 的 
内 存 了 ， 足 够 让 我 去 探索 编程 和 计算 机 图 形 学 。 我 当时 完全 没有 意识 到 程序 和 数据 在 后 台 
是 不 断 压缩 和 解压 缩 的 ， 从 而 减 小 了 它们 在 内 存 中 的 大 小 。 说 到 这 里 ， 真 要 感谢 Woz ! 


有 了 儿 年 的 编程 经 验 后 ， 我 发 现 : 


。 数据 压缩 需要 花费 时 间 并 可 能 会 导致 软件 变 慢 ， 
。 改变 数据 的 组 织 结构 可 以 让 数据 压缩 得 更 小 ; 
。 复杂 的 数据 压缩 算法 各 式 各 样 。 


这 使 我 意识 到 压缩 不 是 一 个 刚性 的 黑 盒 ， 相 反 ， 它 是 一 个 灵活 的 工具 ， 可 以 极 大 地 影响 软 
件 的 质量 。 我 们 可 以 通过 以 下 几 种 方式 运用 压缩 ; 























。 改变 压缩 算法 有 可 能 让 软件 运行 得 更 快 ， 
。 针对 数据 的 组 织 结构 选择 正确 的 压缩 算法 ， 可 以 使 数据 变 得 更 小 ， 
。 选择 不 匹配 的 数据 组 织 结构 或 压缩 算法 ， 可 能 会 导致 数据 变 大 或 运行 变 慢 。 


如 今 我 明白 数据 压缩 为 什么 重要 了 。 如 果 数 据 太 大 、 内 存 不 够 ， 或 者 解压 缩 太 慢 ， 可 以 稍 
微 改变 一 下 数据 的 组 织 结构 ， 以 使 它 更 好 地 适应 压缩 算法 。 比 如 ， 我 会 将 数 单独 放 在 一 
组 ， 字 符 串 放 在 另 一 组 ， 为 重复 出 现 的 数据 类 型 建 表 ， 或 者 将 分 数 截断 为 整数 。 如 果 能 让 
数据 与 算法 匹配 ， 我 就 无 须 去 做 评估 与 采用 新 的 压缩 算法 这 样 的 若 差 。 

后 来 ， 我 开始 做 专业 的 电子 游戏 ， 大 部 分 游戏 数据 是 由 艺术 家 、 设 计 师 和 音乐 家 这 样 的 非 
技术 人 员 生 成 的 。 结 果 表明 ， 数 学 不 是 他 们 最 喜欢 讨论 的 话题 ， 而 且 他 们 对 改变 游戏 数据 
以 便 更 好 地 利用 我 的 单 向 压缩 算法 不 太 感 兴趣 。 好 吧 ， 既 然 数 据 的 组 织 结构 无 法 改善 ， 剩 
下 能 做 的 就 是 选择 最 合适 的 压缩 算法 来 与 这 些 “ 伟 大 的 ”艺术 数据 匹配 了 。 


我 调查 了 各 种 数据 压缩 算法 ， 发 现 有 两 大 类 很 适合 电子 游戏 数据 : 
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口 无 损 方法 
。 去 掉 重 复数 据 (LZ 算法 ) 
。 炉 压缩 〈 哈 夫 曼 编码 、 算 术 编 码 ) 


口 有 损 方法 

降低 精度 〈 截 断 或 降 采样 ) 
。 图 像 /视频 压缩 
。 音频 压缩 


对 文本 字符 串 和 二 进 制 数据 使 用 LZ 算法 ， 可 以 将 完全 重复 的 数据 压缩 掉 。 对 像素 数据 使 
用 有 损 的 矢量 量化 (vector quantization，VQ) 算法 ， 可 以 将 像素 映射 为 调 色 板 。 对 音频 数 
据 使 用 有 损 的 降 采 样 和 线性 预测 编码 (linear predictive coding，LPC) 算法 ， 可 以 减少 每 秒 
的 二 进 制 位 数 。 如 果 CPU 足够 快 ， 前述 所 有 这 些 压缩 算法 的 输出 都 可 以 再 用 无 损 的 哈 夫 
曼 算 法 进行 一 次 额外 的 统计 人 压 缩 。 


20 世纪 八 九 十 年 代 ， 我 参与 制作 了 大 约 30 个 游戏 ， 其 中 大 多 数 使 用 的 是 这 些 算法 ， 外 加 
简单 的 数据 构造 工具 对 数据 的 组 织 结构 进行 有 限 的 优化 。 


但 是 到 了 2000 年 左右 ， 情 况 变 得 复杂 起 来 。 数 据 生 成 工具 与 数据 展示 和 分 析 工 具 之 间 展 
开 了 持续 的 竞争 。 其 结果 是 软件 性 能 、 存 储 大 小 、 网 络 拥塞 以 及 压缩 算法 与 数据 组 织 结 
构 的 有 效 配对 。 


这 种 数据 洪流 被 更 大 的 存储 空间 (蓝光 光盘 、TB 级 的 硬盘 以 及 云 存 储 )、 更 快 的 多 核 
CPU、 新 的 无 损 压 缩 算法 (如 BWT、ANS 和 PAQ)， 以 及 针对 图 像 、 视 频 、 音 频 等 数据 的 
有 损 编 解码 器 的 巨大 性 能 提升 部 分 抵消 了 。 然 而 ， 由 于 数据 每 年 的 增长 速度 太 快 ， 相 比 之 
下 ， 网 络 带宽 的 增加 、 压 缩 算 法 的 性 能 提升 以 及 存储 容量 增长 的 速度 就 太 慢 了 。 


















































这 些 因素 造成 了 我 们 的 现状 ， 这 也 是 本 书 内 容 之 所 以 重要 的 原 


程序 员 怎么 才能 知道 为 数据 选择 哪 种 压缩 算法 ， 以 及 对 数据 做 什么 样 的 改变 能 使 特定 的 算 
法 表现 得 更 好 或 更 差 呢 ? 其 实 真正 有 帮助 的 是 对 主要 的 数据 压缩 算法 进行 介绍 ， 指 导 开 发 
人 员 从 众多 可 用 的 算法 中 选择 最 合适 的 。 大 部 分 开发 人 员 其 实 并 不 需要 掌握 实现 这 些 算法 
所 需要 的 所 有 理论 和 数学 细节 ， 他 们 只 要 知道 这 些 算法 的 优 人 缺点， 以 及 在 特定 场景 中 怎样 
充分 利用 它们 即 可 。 


我 很 高 兴 在 过 去 的 37 年 里 一 直 在 实现 和 使 用 不 同 的 数据 压缩 算法 ， 并 看 到 它们 的 发 展 变 
化 。 我 希望 这 本 书 能 揭 开 数据 压缩 的 神秘 面纱 ， 为 软件 开发 人 员 学 习 压 缩 算法 提供 一 个 起 
点 ， 同 时 帮助 他 们 开发 出 更 好 的 软件 。 
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数据 压缩 无 处 不 在 ， 对 现代 计算 来 说 它 仍然 像 以 前 一 样 必 不 可 少 。 过 去 ，1 GB 就 已 经 很 大 
了 ， 数 据 以 每 秒 儿 千 字 市 的 速度 传输 。 从 茶 种 意义 上 来 说 ， 我 们 已 经 经 历 了 一 个 完整 的 循 
环 ， 从 内 存 和 带宽 有 限 的 古董 计算 机 时 代 ， 来 到 了 内 存 有 限 且 数据 套餐 十 分 昂贵 的 移动 设 
时 代 。 






































幸运 的 是 ， 有 很 多 工具 、API 以 及 程序 包 可 以 帮 我 们 压缩 数据 。 理 解 它们 如 何 工作 ， 有 助 
于 我 们 正确 地 选择 压缩 工具 (或 算法 )， 而 这 又 可 以 令 用 户 更 高 兴 ， 同 时 降低 成 本 、 增 加 
收入 。 

数据 压缩 的 基础 是 数学 ， 让 我 们 坦然 面 对 它 。 对 大 多 数 人 来 说 ， 数 学 很 难 ， 真 的 很 难 ， 而 
且 对 于 程序 员 曾 经 是 最 高 的 一 道门 槛 。 想 想 数据 压缩 之 父 克 劳 德 香农 《Claude Shannon)， 
他 的 数学 非常 好 ， 在 黑板 上 随手 一 写 就 是 一 行 行 复杂 的 方程 。 

更 疯狂 的 是 ， 现 代 程 序 员 不 需要 了 解数 学 。 现 在 ，8 岁 的 孩子 都 能 上 网 ， 其 至 在 没有 上 过 
代数 课 的 情况 下 ， 就 能 通过 自学 教程 发 布 自己 的 网 页 或 应 用 程序 。 


我 们 相信 ， 这 就 是 过 去 20 多 年 里 数据 压缩 领域 一 直 停 请 不 前 的 原因 。 虽 然 有 20 亿 人 在 使 
用 移动 设备 ， 并 且 他 们 经 常 遇 到 内 存 不 足 和 网 络 连 接 不 良 等 问题 ， 但 是 数据 压缩 技术 仍然 
处 于 半 停 带 状 态 。 这 是 因为 懂 数 学 的 程序 员 不 多 。 


当然 也 因为 数学 比较 难 。 














































































































你 可 以 看 到 ， 压 缩 不 是 真 的 与 数据 有 关 。 数 据 压 缩 领 域 早期 的 创始 人 考虑 的 并 不 是 数据 ， 
而 是 统计 。 他 们 寻找 并 发 现 了 操纵 数据 集中 符号 的 概率 分 布 的 不 同方 法 ， 并 利用 这 些 方法 
来 生成 包含 同样 的 信息 但 更 小 的 数据 集 。 








注 1: 这 是 2015 年 的 数据 ， 如 果 你 是 在 未 来 某 个 时 间 点 读 到 这 本 书 的 ， 数 据 肯 定 会 不 同 。 还 有 ， 很 感谢 你 
阅读 这 本 书 。 
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随 着 计算 机 技术 越 来 越 普 遍 、 越 来 越 去 数学 化 ， 普 通 程 序 员 需要 知道 的 统计 学 知识 和 其 他 
高 等 数学 知识 也 越 来 越 少 。 因 此 ， 尽 管 21 世纪 初出 现 了 计算 机 史上 最 大 规模 的 技术 繁荣 ， 
整个 数据 压缩 领域 却 只 取得 了 两 三 项 技术 进展 。 


因为 数据 压缩 很 难 。 
因为 它 以 数学 为 基础 。 


现在 ， 我 们 从 公平 和 实用 的 角度 来 看 待 这 个 问题 。 如 今 ， 大 多 数 程序 员 和 内 容 开 发 人 员 不 
需要 懂得 高 等 数学 ， 也 不 需要 理解 压缩 的 工作 原理 ， 因 为 他 们 只 需要 获得 一 个 像样 的 数据 
压缩 库 ， 再 把 数据 扔 给 它 ， 就 可 以 到 处 使 用 压缩 后 的 数据 了 。 


然而 ， 向 前 看 ， 这 还 不 够 。 根 据 预测 ， 到 2025 年 ， 将 有 50 亿 人 使 用 计算 机 并 通过 互联 网 
传输 数据 。 想 想 那 时 ， 数 据 量 会 急剧 增长 ， 我 们 会 有 太 多 的 数据 ， 运 营 商 的 传输 速度 会 不 
够 快 ， 数 据 仓库 又 太 小 而 无 法 容纳 这 些 数据 。 当 然 ， 一 个 解决 方法 就 是 使 用 尚未 发 明 出 来 
的 创新 算法 ， 实 现 更 快 、 更 好 的 压缩 。 



















































































这 自然 要 用 到 数学 。 





而 数学 又 很 难 。 


另 一 个 解决 方法 是 教 那些 愿意 学 的 人 理解 数据 压缩 的 工作 原理 。 因 此 ， 你 不 再 是 随便 拿 到 
某 个 压缩 工具 就 去 使 用 ， 而 是 可 以 选择 最 好 的 压缩 工具 ， 并 将 数据 以 最 高 效 的 方式 提供 给 
用 户 。 

这 就 是 本 书 的 写作 动机 。 我 们 试图 将 数据 压缩 这 一 学 科 中 大 量 难以 理解 的 内 容 简 化 为 普 
通 人 都 能 理解 的 内 容 ， 并 且 让 他 们 能 将 这 些 知识 应 用 到 日 常 的 数据 需求 中 。 我 们 试 着 尽 
可 能 少 用 数学 ， 尽量 用 图 、 表 和 数据 流 的 形式 来 解释 数据 压缩 的 基本 原理 。 与 柯 尔 特 在 
YouTube 上 的 Compressor Head 系列 视频 相似 ， 我 们 希望 能 通过 本 书 教 给 任何 高 中 以 上 文 
化 水 平 的 读者 一 些 数据 压缩 知识 ， 即 使 你 不 是 程序 员 也 不 要 紧 。 

不 过 ， 我 们 要 坦诚 地 告诉 读者 : 如 果 你 真 想 理解 这 些 内 容 ， 就 必须 做 一 些 思维 训练 。 就 像 
骑 自 行车 一 样 ， 数 据 压缩 还 是 比较 难 的 ， 只 有 你 真正 领会 了 其 中 的 要 点 ,一 切 才 变 得 有 意 
义 起 来 。 但 在 这 之 前 ， 你 必须 坚持 下 去 ， 并 通过 例子 加 深 自己 的 理解 。 



















































































有 一 点 需要 明确 ， 本 书 的 目标 不 是 让 你 成 为 压缩 专家 ， 因 为 那 需要 相当 深 厚 的 数学 功底 
(这 很 难 做 到 )， 而 是 让 你 理解 压缩 算法 ， 这 意味 着 我 们 有 时 会 使 用 恰当 的 术语 ， 有 了 时 则 会 
使 用 虽然 不 太 正 确 但 更 具 描述 性 的 术语 。 掌 握 这 些 术语 也 许 还 不 足以 让 你 与 其 他 数据 压缩 
专业 人 员 在 茶 鞭 时 随心 交流 。 我 们 想 为 你 提供 足够 多 的 信息 ， 以 确保 你 做 出 正确 的 有 关 数 
据 压缩 的 商业 决策 。 























最 后 ， 老 实说 ， 数 据 压 缩 真 的 很 酷 。 当 然 ， 这 是 我 们 的 想法 ， 和 希望 当 你 深入 阅读 本 书后 ， 
也 会 这 样 认为 。 


在 写 这 本 书 时 ， 我 们 觉得 很 开心 ， 也 希望 你 能 从 数据 压缩 知识 的 学 习 中 获得 乐趣 。 


怎样 阅读 本 书 


与 任何 好 故事 一 样 ， 本 书 也 回答 了 所 有 相关 的 疑问 。 什 么 是 数据 压缩 ? 为 什么 需要 了 解数 
据 压 缩 ? 数据 压缩 这 一 技术 是 什么 时 候 发 明 的 ? 有 哪些 人 致力 于 减少 更 多 的 二 进 制 位 ? 我 
们 需要 在 产品 开发 周期 的 哪个 阶段 关注 数据 的 大 小 ? 还 有 最 重要 的 ， 它 是 如 何 节 省 二 进 制 
位 、 金 钱 以 及 用 户 的 数据 流量 的 ? 


本 书 是 按 先 后 顺序 编排 内 容 的 ， 因 此 我 们 建议 你 从 前 往 后 按 章 阅读 。 本 书 的 每 一 章 都 以 前 
一 章 为 基础 ， 这 不 仅 体 现在 时 间 线 上 ， 也 体现 在 术语 的 引入 和 算法 的 演化 方面 。 我 们 是 根 
据 从 前 往 后 阅读 的 设想 写作 本 书 的 ， 因 此 按照 我 们 设想 的 方式 来 阅读 最 简单 。 


怎样 从 后 往 前 阅读 本 书 


如 有 果 能 让 你 激动 的 是 钱 而 不 是 复杂 的 算法 ， 你 可 以 试 着 从 后 往 前 倒 着 读 这 本 书 。 要 让 你 自 
己 完 全 相信 ， 数 据 压 缩 是 自 〈 芯 黄油 ) 切片 面包 发 明 以 来 最 令 人 激动 的 事情 ， 然 后 在 这 一 
信念 的 鼓舞 下 ， 再 去 理解 数据 压缩 是 如 何 工作 的 (你 猜 对 了 ， 理 解 了 数据 压缩 之 后 ， 就 可 
以 赚 更 多 的 钱 )。 准 备 好 了 吗 ? 


= -i 

章 市 概要 

不 得 不 说 ， 这 一 部 分 内 容 通常 很 无 趣 ， 但 我 们 向 你 保证 ， 就 像 电影 《公主 新 娘 》 中 的 原作 
者 及 编剧 William Goldman 那样 ， 我 们 只 向 你 展示 干货 。 因 此 ， 虽 然 我 们 要 求 你 不 要 跳 过 
第 2 章 , 但 你 完全 可 以 跳 过 这 个 概要 。 你 可 以 通过 浏览 目录 来 了 解 整 本 书 的 内 容 ， 或 者 既 
然 你 已 经 拿 起 本 书 ， 那 就 干脆 直接 读 下 去 。 但 如 果 你 想 在 实际 阅读 前 了 解 一 下 各 章 的 内 


次 » 这 里 会 给 你 一 些 提 示 。 


口 第 1 章 ， 并 非 无 趣 的 一 章 
如 果 你 没有 时 间 阅 读 整 本 书 的 话 ， 那 么 阅读 第 1 章 就 可 以 了 ， 这 里 有 你 需要 知道 的 所 有 
内 容 。 压 缩 算法 可 以 分 为 5 类 : 变 长 编码 、 统 计 压 缩 、 字 典 编码 、 上 下 文 模型 和 多 上 下 
文 模型 。 香 农 发 明了 一 种 度量 消息 中 所 包含 信息 内 容 的 方法 ， 并 称 之 为 信息 炉 。 压 缩 的 
关键 在 于 使 用 尽 可 能 少 的 符号 对 数据 进行 编码 ， 以 使 其 占用 的 二 进 制 位 数 尽 可 能 地 少 。 
数据 压缩 是 整个 互联 网 的 基础 ， 我 们 应 该 对 所 有 的 数据 进行 压缩 。 这 就 是 第 1 章 的 内 
容 ， 如 果 你 愿意 ， 现 在 就 可 以 合 上 这 本 书 了 。 















































































































































口 第 2 章 ， 不 容错 过 的 一 章 
这 一 章 之 所 以 不 容错 过 ， 是 因为 它 葛 定 了 全 书 的 基础 ， 比 如 如 何 用 0 和 1 来 表示 整个 世 
界 ， 同 时 还 介绍 了 信息 论 和 灼 概念 ( 即 表示 一 个 数 所 需要 的 最 小 二 进 制 位 数 )。 


口 第 3 章 ， 突 破 粹 
根据 香农 的 理论 ， 箭 就 是 一 组 数据 在 理论 上 所 能 达到 的 最 小 大 小 ， 而 数据 压缩 则 通过 利 
用 真实 数据 的 两 个 性 质 ， 即 符号 之 间 的 顺序 与 相互 关系 ， 打 破 了 这 个 限制 。 


口 第 4 章 ，VLC 
在 这 一 章 中 ， 你 会 学 习 如 何 将 0 和 1 串 在 一 起 ， 构 造 唯 一 的 、 长 度 可 变 的 码 字 ， 然 后 再 
将 最 短 的 码 字 分 配给 数据 集中 最 可 能 出 现 的 符号 。 此 外 ， 你 还 会 遇见 Peter Elias。 


口 第 5 章 ， 统 计 编 码 
不 存在 适用 于 所 有 场合 的 万 能 方法 ， 而 统计 编码 算法 能 根据 特定 的 数据 集 进行 优化 ， 生 
成 个 性 化 的 变 长 编码 。 在 这 一 章 中 ， 你 将 使 用 便签 构建 哈 夫 曼 树 ， 并 学 习 算术 编码 ， 还 
会 遇见 Jarek Duda， 他 通过 引进 算术 数字 系统 取代 了 前 两 者 。 


口 第 6 章 ， 自 适应 统计 编码 

真实 的 数据 流 时 刻 在 变化 ， 而 自 适应 编码 器 能 根据 正在 处 理 的 数据 的 局 部 特性 对 编码 进 
行 优化 。 

口 第 7 章 ， 字 典 转换 
如 有 果 不 能 进一步 压缩 数据 ， 可 以 考虑 在 应 用 统计 压缩 之 前 ， 以 “单词 ”为 单位 ， 对 其 在 
数据 集中 的 重复 方式 进行 编码 ， 从 而 将 数据 预 处 理 为 更 可 压缩 的 形式 。 


口 第 8 章 ， 上 下 文 数 据 转换 

有 多 少数 据 集 ， 就 有 多 少 不 同 的 转换 ， 但 下 面 两 种 转换 是 现代 计算 中 最 为 重要 的 : 行程 
编码 和 增 量 编码 。 这 两 种 方法 的 共同 之 处 在 于 ， 它 们 会 根据 前 面 已 经 出 现 过 的 内 容 来 决 
定 后 面 会 出 现 的 内 容 。 


口 第 9 章 ， 数 据 建 模 
多 上 下 文 编码 算法 为 了 识别 编码 当前 符号 的 理想 的 二 进 制 位 数 ， 会 考虑 最 后 见 到 的 几 个 
符号 。 你 可 以 将 它 看 成 每 读 取 一 个 新 的 符号 就 去 创建 一 棵 新 的 哈 夫 曼 树 。 在 这 一 章 ， 你 
会 遇 到 如 下 术语 : 马尔 可 夫 链 、 部 分 匹配 预测 算法 和 单词 查找 树 。 如 果 想 给 朋友 留 下 深 
刻印 象 ， 不 妨 用 用 上 面 这 些 术 语 。 

口 第 10 章 ， 换 个 话题 

这 一 章 简单 介绍 多 媒体 数据 压缩 ， 并 为 数据 的 实际 使 用 打开 方便 之 门 。 

口 第 11 章 ， 评 价 数据 压缩 

针对 不 同 的 数据 流 有 不 同 的 数据 压缩 算法 。 使 用 场景 不 同 ， 使 用 的 压缩 算法 也 会 不 同 。 

在 这 一 章 中 ， 你 会 学 习 为 了 选择 最 符合 当前 需要 的 压缩 算法 需要 考虑 哪些 方面 。 









































































































































口 第 12 章 ， 压 缩 图 像 数据 
如 果 你 是 一 名 应 用 程序 开发 人 员 ， 那 么 需要 处 理 的 绝 大 多 数 数据 会 是 图 像 。 我 们 可 以 利 
用 规律 并 巧妙 地 忽略 那些 人 类 大 脑 注 意 不 到 的 信息 ， 来 节省 图 像 需 要 的 二 进 制 位 数 。 在 
这 一 章 中 ， 你 将 学 习 PNG、JPG、GIF 和 WebP 等 图 像 压缩 格式 。 









































口 第 13 章 ， 序 列 化 数据 
在 网 络 应 用 程序 中 ， 序 列 化 的 内 容 可 以 说 是 第 二 常见 的 数据 传输 格式 。 我 们 可 以 用 二 进 
制 序列 化 格式 来 代替 JSON 和 XML 格式 。 


口 第 14 章 ， 有 损 数据 压缩 
实际 上 ， 如 果 深入 讨论 这 个 话题 的 话 ， 可 以 写成 另外 一 本 书 。 























口 第 15 章 ， 让 世界 变 得 更 小 
这 一 章 会 回答 ， 为 了 让 客户 更 多 、 事 业 更 兴 、 利 润 更 高 ， 你 必须 关注 数据 压缩 的 原因 。 


电子 书 


扫描 如 下 二 维 码 ， 即 可 购买 本 书 中 文 版 电子 版 。 
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并 非 无 趣 的 一 章 





亲爱 的 读者 ， 欢 迎 来 到 本 书 第 1 章 ， 本 书 要 讨论 的 主题 在 数据 处 理 中 有 着 重要 的 地 位 。 这 
一 章 将 为 你 阅读 本 书后 续 内 容 打下 基础 出 版 者 这 么 说 ) ， 并 激发 你 的 阅读 兴趣 。 为 了 帮 
助 你 以 尽 可 能 轻松 平缓 (又 有 趣 ) 的 方式 进入 数据 压缩 这 一 领域 ， 出 版 者 希望 我 们 先 介绍 
一 下 数据 压缩 的 历史 、 一 些 基础 知识 ， 还 有 其 他 任何 我 们 能 想到 的 内 容 一 一 但 不 涉及 数 
学 ， 因 为 数学 很 难 '。 


但 是 说 实话 ， 如 果真 那样 做 的 话 ， 不 仅 读者 读 起 来 无 趣 ， 作 者 写 的 时 候 也 没意思 。 


所 以 ， 我 们 决定 不 那样 做 ， 而 是 根据 自己 的 想法 来 号。 本 书 的 主题 是 数据 压缩 ， 而 数据 压缩 
无 非 是 用 最 紧凑 的 方式 来 表示 数据 。 因 此 ， 我 们 会 用 最 简短 的 篇 幅 来 写 这 介绍 性 的 第 1 章 。 
这 一 章 首 先 介 绍 数据 压缩 算法 ， 然 后 介绍 殉 劳 德 * 香农 。 他 几乎 毁 了 我 们 的 生活 ， 同 时 又 
创造 了 我 们 所 热爱 的 计算 机 的 几乎 所 有 重要 方面 。 最 后 ， 这 一 章 会 介绍 关于 数据 压缩 你 必 
须知 道 的 一 件 事 。 我 们 相信 ， 通 过 这 种 方法 ， 可 以 让 你 弄 清楚 数据 压缩 怎样 使 应 用 更 好 、 
更 便宜 、 更 快 。 


亲爱 的 读者 ， 就 这 样 说 定 了 ， 好 吗 ? 


1.1 5 类 数据 压缩 算法 
数据 压缩 算法 其 实 是 一 个 相当 大 的 主题 ， 好 在 我 们 可 以 对 所 有 这 些 算法 进行 分 类 。 分 
类 之 后 ， 这 些 算法 理解 起 来 也 就 更 容易 了 。 简 单 地 说 ， 数 据 压缩 算法 有 5 类 : 变 长 编码 
















































































注 1: 这 是 我 们 最 后 一 次 这 样 说 。 





(variable-length codes，VLC)、 统 计 压 缩 (statistical compression)、 字 典 编 码 (dictionary 
encodings) 、 上 下 文 模型 (context modeling) 和 多 上 下 文 模型 (multicontext modeling)。 所 
有 这 5 类 算法 都 有 很 多 变种 ， 这 是 一 件 好 事 ， 因 为 我 们 可 以 根据 自己 的 需要 来 选择 。 每 类 
算法 的 变种 在 输入 数据 、 算 法 性 能 、 内 存 要 求 以 及 输出 大 小 方面 存在 细微 的 差别 。 要 选 出 
其 中 最 佳 的 一 个 算法 ， 需 要 在 准备 的 数据 上 测试 这 些 算法 ， 然 后 找 出 压缩 效果 最 好 的 那个 。 


这 儿 类 算法 也 可 以 混合 使 用 ， 因 为 其 中 有 些 算法 的 目的 就 是 转换 数据 ， 使 得 其 他 的 算法 在 
压缩 时 更 有 效 。 


如 果 想 成 为 数据 压缩 方面 的 专家 ， 那 么 你 就 必须 理解 这 几 类 算法 、 如 何 搭 配 使 用 它们 ， 以 
于 特定 的 数据 集 需 要 从 哪 类 算法 中 选 出 一 个 具体 的 算法 。 
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村 


下 我 们 开局 学 习 之 旅 吧 。 


1.2 惹 人 “愤怒 ”的 克 劳 德 . 香农 
让 我 们 先 回 到 20 世纪 40 年 代 ， 一 位 名 叫 克 劳 德 香农 的 统计 学 家 发 表 了 好 几 篇 论文 ， 详 壕 
了 他 在 第 二 次 世界 大 战 期 间 在 军队 任职 时 以 及 之 后 在 贝尔 实验 室 工作 时 所 做 的 研究 工作 。 

















香农 非常 聪明 ,数学 学 得 特别 好 。 在 1936 年 离开 密歇根 大 学 之 前 ， 他 已 经 取得 了 工程 技术 
学 士 学 位 和 数学 学 士 学 位 。 随 后 ， 他 又 去 了 麻 省 理工 学 院 ， 并 在 那里 做 了 很 多 研究 工作 。 
他 的 硕士 论文 题 为 《继电器 与 开关 电路 的 符号 分 析 》， 该 论文 为 基于 开关 的 现代 电路 计算 
英 定 了 基础 。 























1948 年 ， 香 农 又 发 表 了 《通信 的 数学 理论 》， 在 这 篇 论文 中 他 详细 论述 了 发 送 者 怎样 对 要 
发 送 的 信息 进行 编码 才能 达到 最 佳 效 果 ， 由 此 开创 了 信息 论 (information theory) 这 一 全 
新 的 学 术 领 域 。 对 消息 进行 编码 有 多 种 方式 ,“ 字 母 表 ”与 “摩尔 斯 码 ” 只 是 其 中 常见 的 
两 种 。 但 是 对 每 一 个 特定 的 消息 来 说 ， 都 有 一 个 最 佳 的 编码 方式 ， 这 里 的 “最 佳 ” 指 的 是 
传递 消息 时 用 到 的 字母 或 者 符号 (也 可 以 说 是 二 进 制 位 ， 即 信息 的 单位 ) 最 少 。 至 于 这 里 
说 的 “最 少 ” 到 底 是 多 少 ， 则 取决 于 消息 所 包含 的 信息 内 容 。 香 农 发 明了 一 种 度量 消息 所 
携带 信息 内 容 的 方法 ， 并 称 之 为 信息 蚁 (information entropy)。 









































数据 压缩 其 实 是 香农 的 研究 工作 的 一 项 实际 应 用 ， 它 所 研究 的 问题 是 ，“ 在 保证 信息 能 恢 
复 的 前 提 下 ， 我 们 能 将 消息 变 得 多 么 紧凑 ”。” 


不 过 ， 等 一 等 ， 为 什么 我 们 要 在 这 一 方 的 标题 中 说 香农 若 人 “ 惯 怒 ” 呢 ? 








注 2: 需要 注意 的 是 ， 根 据 现代 信息 论 的 观点 ， 在 压缩 数据 以 减少 总 二 进 制 位 数 的 时 候 存在 一 个 临界 点 ， 如 
果 超 过 了 这 个 值 ， 我 们 就 不 能 将 压缩 后 的 数据 唯一 正确 地 恢复 为 原来 的 数据 流 。 因 此 ， 我 们 的 压缩 目 
标 就 是 尽 可 能 地 减少 总 二 进 制 位 数 以 接近 这 个 临界 值 ， 并 且 不 超过 这 个 值 。 
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答案 是 ， 虽 然 我 们 要 感谢 香农 帮助 创造 了 现代 计算 机 一 一 这 本 书 就 是 在 计算 机 上 写作 后 出 
版 的 〈 你 也 很 可 能 是 在 计算 机 上 阅读 这 本 书 的 )， 但 他 在 信息 论 方 面 的 工作 一 直 以 来 都 是 
我 们 想 要 突破 和 超越 的 。 你 可 以 把 数据 压缩 看 成 对 信息 灶 的 挑战 。 计 算 机 科学 家 所 写 的 每 
一 个 数据 压缩 算法 都 是 为 了 反驳 香农 的 研究 ， 使 数据 的 压缩 程度 超过 用 香农 发 明 的 公式 计 
算出 来 的 信息 精 。 我 们 想方设法 地 去 掉 信 息 中 每 一 个 元 余 的 二 进 制 位 ， 想 让 它 变 得 尽 可 能 
小 ， 以 突破 香农 所 定义 的 箭 的 下 限 ， 从 而 达到 对 信息 的 全 新 层次 的 理解 。 在 过 去 的 60 多 
年 里 ， 工 程 人 员 花 了 大 量 时 间 ， 想 通过 创造 新 的 算法 来 超越 或 者 巧妙 地 绕 开 这 位 伟人 所 创 


造 的 概念 。 


1.3 关于 数据 压缩 ， 你 必须 知道 的 
下 面 直接 上 干货 。 
对 数据 进行 压缩 ， 通 常 有 两 个 思路 ， 


。 减少 数据 中 不 同 符号 的 数量 〈 即 让 “字母 表 ” 尽 可 能 小 ) ， 
。 用 更 少 的 位 数 对 更 常见 的 符号 进行 编码 〈 即 最 常见 的 “字母 ”所 用 的 位 数 最 少 )。 












































好 了 ， 你 需要 知道 的 就 是 这 些 。 





60 年 来 的 数据 压缩 研究 都 可 以 归结 到 上 面 两 个 重要 思路 上 ， 数 据 压 缩 中 的 每 一 个 算法 都 聚 
焦 于 解决 这 两 件 事情 中 的 一 件 。 每 一 个 压缩 算法 ， 要 么 通过 打 乱 符号 或 减少 符号 的 数量 ， 
将 数据 转换 得 更 便于 压缩 ， 要么 利用 其 中 一 些 符 号 比 其 他 符号 更 常见 的 事实 ， 通 过 用 最 少 
的 位 数 编码 最 常见 的 符号 ， 实 现 压缩 的 目的 。 





























虽然 数据 压缩 的 思路 简单 明了 ， 但 在 实际 应 用 中 数据 压缩 很 复杂 。 其 原因 在 于 ， 由 于 要 压 
缩 的 数据 的 类 型 不 同 ， 针 对 上 述 两 条 思路 中 的 每 一 条 ， 能 采用 的 方法 都 有 很 多 。 因 此 ， 进 
行 实际 的 数据 压缩 时 ， 需 要 综合 考虑 以 下 些 因素 。 














。 不 同 数据 的 处 理 方法 不 同 ， 比 如 压缩 一 本 书 中 的 文字 和 压缩 浮 点 型 的 数 ， 其 对 应 的 算法 
就 大 不 相同 。 

。 有 些 数 据 必 须 经 过 转换 才能 变 得 更 容易 压缩 。 

。 数据 可 能 是 偏 态 的 。 例 如 ， 夏 天 的 整体 气温 偏 高 ， 也 就 是 说 高 气温 出 现 的 频率 比 接近 零 
度 的 气温 出 现 的 频率 高 很 多 。 








作为 程序 员 ， 你 面 对 的 挑战 就 是 ， 找 出 最 好 的 方法 或 者 方法 组 合 来 压缩 用 户 给 你 的 数据 。 
而 作为 内 容 开发 者 ， 你 面 对 的 问题 则 是 ， 如 何在 用 户 可 接受 的 费用 范围 内 将 数据 传递 给 
用 户 。” 








注 3: 这 是 因为 在 世界 上 的 大 多 数 地 方 ， 数 据 服务 套餐 是 按 流量 计 费 的 ， 并 且 不 便宜 。 
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亲爱 的 读者 ， 这 就 是 本 书 接 下 来 的 全 部 内 容 。 它 将 作为 指导 手册 ， 让 你 知道 在 数据 压缩 这 
一 领域 内 有 哪些 知识 值得 关注 ， 让 你 理解 压缩 算法 理论 上 是 怎样 工作 的 ， 以 便 你 能 从 中 选 
择 最 适合 的 算法 ， 并 将 它 应 用 到 你 开发 的 那些 酷 炫 的 社交 / 移动/ 网络 / 多 媒体 应 用 程序 数 
据 上 。 


建立 在 数据 压缩 上 的 世界 
我 们 需要 知道 这 样 一 件 事 ， 我 们 当下 生活 在 其 中 的 这 个 计算 世界 ， 完 全 建立 在 数据 压缩 算 
法 之 上 。 



































每 个 网 页 、 每 个 图 像 、 每 首 歌 、 每 个 关于 猫 的 视频 、 每 个 流 媒 体 网 络 电 影 、 每 张 自 拍照 、 
每 次 电子 游戏 下 载 、 每 个 微型 交易 ， 甚 至 是 操作 系统 的 每 次 更 新 ， 所 有 这 一 切 都 得 益 
压缩 算法 。 事 实 上 ， 哪 怕 只 是 想 通过 互联 网 传输 一 个 二 进 制 位 的 数据 ， 也 离 不 开 压缩 的 
内 容 。 


数据 压缩 技术 最 让 人 惊异 之 处 在 于 ， 它 与 过 去 40 年 里 个 人 计算 的 很 多 重大 改变 有 关 ， 但 
很 少 有 人 知道 这 一 点 。 








例如 ， 你 是 不 是 通常 不 买 CD 唱片 ， 而 是 直接 下 载 或 在 线 听 音 乐 ? 如 有 果 的 确 如 此 ， 那 你 需 
要 感谢 压缩 算法 。 


1. 音乐 的 压缩 

时 间 回 到 1996 年 ， 一 群 来 自 不 同 公 司 的 聪明 人 组 成 了 一 个 联合 工作 组 ， 推 出 了 MP3 这 种 
文件 格式 。 这 种 新 的 音频 格式 从 此 改变 了 计算 机 中 音频 的 特性 。 当 时 ，WAYV 格式 才 是 创 
建 、 存 储 和 传输 音频 数据 的 主流 格式 。 几 乎 所 有 人 在 用 WAYV 格式 ， 但 它 存在 一 个 很 严重 
的 问题 ， 那 就 是 文件 特别 大 。 一 首 3 分 钟 的 歌曲 ， 文 件 的 大 小 就 将 近 30 MB ， 下 载 要 花费 
9 分 钟 左 右 ， 更 别提 流 式 播放 了 。” 


MP3 格式 出 现 之 后 ， 一 首 音频 质量 很 好 、3 分 钟 左右 的 完整 歌曲 ， 文 件 大 小 只 有 1~3 MB `。 
人 们 甚至 可 以 将 CD 唱片 放 入 计算 机 ， 并 将 其 转换 成 MP3 格式 ， 以 便 以 数字 信号 的 形式 来 
欣赏 。 

较 小 的 文件 大 小 与 较 高 的 音频 质量 ， 这 两 个 优点 相 结 合 产 生 了 我 们 这 个 时 代 最 伟大 的 消费 
创新 之 一 : Napster 音乐 共享 平台 。 这 项 服务 让 音乐 爱好 者 免费 交换 MP3 文件 成 为 可 能 。 
然而 ， 由 此 也 产生 了 一 个 很 大 的 法 律 问题 ， 那 就 是 一 些 人 在 买 了 CD 唱片 之 后 将 其 转换 为 






























































注 4: 如 果 感 兴趣 的 话 ， 可 以 阅读 The Web Back in 1996-1997 一 文 了 解 当年 走 过 的 弯路 。 
注 5: 需要 注意 的 是 ，MP3 是 一 种 有 损 数据 压缩 格式 ， 也 就 是 说 在 压缩 过 程 中 会 有 一 些 信息 丢失 。 后 面 
章节 中 会 简单 地 讨论 这 种 数据 压缩 类 型 。 








去 
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MP3， 然 后 与 朋友 共享 ， 这 样 他 的 朋友 就 可 以 免费 听 这 些 唱片 了 。 如 此 一 来 ， 最 终 的 结果 
你 也 能 想象 到 ， 这 种 行为 动 了 CD 发 行 公司 的 奶酪 ， 因 而 遭 到 了 这 些 公司 的 强烈 反对 ， 他 
们 动用 了 一 切 手 段 ， 最 终 成 功 地 让 Napster 音乐 共享 平台 关闭 。 


在 20 世纪 90 年 代 末 至 21 世纪 初 ， 类 似 的 法 律 纠 纷 很 多 ， 政府 的 政策 也 不 断 变化 ， 试 图 阻 
止 这 种 形式 的 音乐 共享 。 其 至 有 人 提出 “使 用 MP3 格式 是 非法 的 ”的 立法 建议 。 



































苹果 公司 疫 有 参与 打击 这 种 新 的 数据 格式 ， 而 是 决定 围绕 它 生 产 一 个 产品 。1998 年 ， 苹 果 
公司 推出 了 iPod， 这 是 最 早 的 专门 存储 和 播放 MP3 文件 的 便携 式 设备 之 一 。 随 后 ， 苹 果 
公司 又 推出 了 iTunes 商店 ， 让 顾客 可 以 合法 购买 MP3 文件 供 个 人 使 用 。 


今天 ， 数 字音 乐 的 发 行 已 经 成 为 新 常态 ， 很 多 公司 尝试 找到 更 好 的 方式 来 促进 音乐 的 营销 。 


iPod 这 一 产品 的 巨大 成 功 ， 最 终 带 来 了 让 hone 的 开发 和 发 布 ， 由 此 永远 地 改变 了 个 人 计算 
的 面 狐 。( 这 是 另外 一 个 故事 了 ,) 


2. 图 像 的 压缩 
让 我 们 把 时 间 再 往 回 倒 一 些 ， 回 到 互联 网 诞生 的 那 一 年 ， 也 就 是 1978 年 。 当 首 批 互联 网 
连接 建立 起 来 的 时 候 ， 能 发 送 的 数据 量 非常 少 。 当 时 的 用 户 也 很 少 ， 网 络 主要 用 来 发 送 和 
接收 文本 数据 ， 或 者 如 图 1-1 所 示 的 完全 用 字符 创建 的 图 像 。 
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图 1-1: 由 ASCII 字符 画 出 来 的 城堡 ， 来 源 : 维基 百科 ， 佚 名 作者 


当时 的 问题 是 ， 真 实 的 图 像 信 息 以 24 位 /像素 格式 存储 ， 对 早期 的 调制 解 调 器 来 说 这 样 
的 数据 量 实在 是 太 大 了 。 因 此 ， 压 缩 专 家 将 图 像 压缩 设 为 目标 。 为 了 测试 新 的 图 像 压 缩 算 

















注 6: 第 一 个 便携 式 MP3 播放 器 是 由 世 韩 信息 系统 公司 于 1997 年 推出 的 ， 而 首先 推出 流 媒 体 服务 的 则 是 美 
国电 话 电报 公司 。 
注 7: ASCII 艺术 实际 上 是 由 一 些 有 创意 的 人 使 用 打印 机 发 明 的 。 
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法 ， 他 们 需要 一 个 图 像 语 料 库 。 在 一 个 男性 主导 的 行业 中 ， 他 们 更 偏 癌 于 从 男性 杂志 中 寻 
找 图 片 素材 ， 最 终 选 择 了 现在 很 著名 的 莱 娜 图 ( 见 图 1-2) ， 该 图 截取 了 1972 年 11 月 《 花 
花 公 子 》 杂 志 中 莱 娜 . 瑟 德 贝 里 (Lena S6derberg) 的 一 张 照片 的 一 部 分 。 






































图 1-2: 莱 娜 图 ， 这 幅 图 像 的 原始 全 身 照 是 由 Dwight Hooker 拍摄 的 ， 并 发 表 于 1972 年 11 月 《 花 
花 公子 》 杂 志 的 “当月 玩 伴 ”栏目 。 这 幅 512 x 512 的 图 像 是 由 Alexander Sawchuk 等 人 
通过 电子 或 机 械 扫 描 原 始 照 片 的 一 部 分 获得 的 ， 现 在 可 以 从 USC-SIPI 图 像 数据 库 中 获得 。 
该 图 片 已 获得 维基 百科 授权 


在 发 表 研 究 成 果 时 ， 他 们 在 论文 中 使 用 了 裁剪 后 的 PG-13 版 本 的 图 像 ， 并 提供 了 原始 的 图 
像 版 本 以 供 其 他 研究 人 员 测 试 压缩 算法 。 在 很 长 一 段 时 间 内 ， 莱 娜 图 是 用 来 测试 图 像 压缩 
算法 的 标准 测试 图 。 幸 运 的 是 ， 从 此 以 后 ， 很 少 再 出 现 这 样 有 争议 性 的 图 像 语料库 。( 我 
们 两 位 作者 则 更 喜欢 使 用 柯达 公司 的 图 像 测试 集 。) 然而 即使 是 今天 ， 仍 然 有 很 多 图 像 压 
缩 方 面 的 论文 将 莱 娜 图 用 作 检 验算 法 的 标准 。 


3. 视频 的 压缩 
让 我 们 快速 回 到 2001 年 ， 这 一 年 YouTube 网 站 出 现 了 ， 在 这 个 网 站 上 用 户 可 以 免费 上 传 
他 们 录制 的 任何 视频 ， 供 所 有 人 观看 。 


这 时 ， 视 频 信息 的 主流 传输 格式 是 MOV， 然 而 因为 这 一 格式 不 比 将 一 系列 JPG 图 像 按 顺 
序 排列 先进 ， 所 以 相应 的 文件 很 大 也 就 不 足 为 奇 了 。 因 此 ， 只 加 载 网 页 就 能 观看 视频 的 想 
法 在 当时 实在 是 令 人 难以 置信 。 
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4. 基因 图 谱 

2008 年 ， 为 了 治疗 人 类 疾病 ， 降 低 疾病 死亡 率 ， 科 学 家 开始 绘制 和 测试 人 类 基因 组 。 单 个 
基因 组 序列 就 包含 了 大 量 的 数据 ， 仅 仅 是 描述 人 类 基因 组 成 的 数据 就 超过 了 14 GB。 这 样 
的 数据 大 小 超出 了 大 多 数 系统 能 处 理 的 范围 (当时 云 计 算 还 不 是 热门 话题 )。 























数据 压缩 再 一 次 成 为 解决 问题 的 利器 。 研 究 人 员 发 现 , BWT 是 最 有 效 的 存储 DNA 信息 的 
压缩 格式 ， 甚 至 无 须 解 压 就 能 对 数据 进行 操作 。 








到 了 2014 年 , 研究 人 员 通 过 将 可 扩展 的 云 计 算 与 主机 之 间 的 压缩 数据 传输 结合 起 来 ， 创 造 
了 全 球 最 快 的 蛋白 质 折 姜 计算 之 一 。 


5. 压缩 与 经 济 

通过 前 面 的 介绍 ， 我 们 可 以 看 到 ， 数 据 压 缩 一 直 是 推动 计算 技术 与 计算 文化 发 生 重大 变化 
的 核心 力量 。 这 背后 的 经 济 原理 却 很 简单 : 压缩 后 的 文件 会 变 得 更 小 。 这 也 就 意味 着 ， 同 
样 的 数据 传输 所 需 的 时 间 会 变 短 ， 相 应 的 费用 也 会 减少 。 分 发 者 的 分 发 成 本 会 降低 ， 消 费 
者 的 支出 也 会 减少 。 在 当今 这 个 计算 时 间 就 是 金钱 的 时 代 ， 数 据 压缩 可 以 说 是 缩短 内 容 分 
发 者 和 消费 者 之 间距 离 最 经 济 可 行 的 方法 。 














注 8: 第 8 章 会 对 BWT (Burrows-Wheeler transform， 伯 罗斯 一 惠 勒 变换 ) 进行 更 深入 的 讨论 。 
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即使 你 对 二 进 制 数 很 熟悉 ， 本 章 的 内 容 同样 不 容错 过 。 本 章 还 将 开始 深入 研究 信息 论 ， 这 
是 理解 本 书后 面 内 容 的 前 提 。 


2.1 理解 二 进 制 


这 看 起 来 或 许 有 些 奇 苗 ， 一 本 论述 数据 压缩 的 书 居然 以 二 进 制 数 开头 。 还 请 读者 多 担 待 ， 
因为 数据 压缩 所 做 的 无 非 就 是 尽 可 能 减少 表示 特定 数据 集 时 所 需 的 二 进 制 位 数量 。 为 了 进 
一 步 阐述 这 一 概念 以 及 它 在 数学 上 的 影响 ， 我 们 不 妨 在 此 花 一 点 时 间 ， 确 保 每 个 人 的 理解 
程度 一 致 。 


2.1.1 十 进 制 计数 系统 


现代 数学 建立 在 十 进 制 计数 系统 之 上 。， 












































有 了 这 一 计数 系统 ， 我 们 就 可 以 用 [0,1,2,3,4,5,6,7,8,9] 这 10 个 数字 来 表示 任何 数值 。 上 小 
学 时 ， 你 可 能 已 接触 过 数位 的 概念 ， 比 如 193 这 个 数 从 左 到 右 包 含 3 个 数位 ， 分 别 是 百 
位 、 十 位 和 个 位 ， 如 下 表 所 示 。 

















百 位 十 位 个 位 
1 9 3 
注 1: 这 里 说 的 是 现在 的 情况 ， 我 们 相信 未 来 某 一 天 量子 计算 或 巴比伦 计数 法 会 改变 这 一 点 。 

















实际 上 ，193 就 等 于 1x100 + 9x10 + 3。 一 旦 掌握 了 这 个 规则 ， 你 就 会 认识 到 可 以 一 直 
这 样 数 下 去 ， 数 到 任何 数 都 可 以 。 





后 来 ， 学 了 指数 后 ， 你 知道 可 以 用 以 10 为 底 的 指数 去 代替 百 位 和 十 位 ， 这 样 新 的 规律 又 
出 现 了 ， 如 下 表 所 示 。 








10° ia Hoa 





因此 ， 下 式 成 立 : 





193=1x100 + 9x10 + 3=(1 x10”)+(9x10)+(3x10" 





因为 每 一 列 只 能 有 一 位 数字 ， 所 以 在 9 的 基础 上 再 加 1 会 发 生 什么 呢 ? 从 9 再 数 一 位 ， 得 
到 10 (两 位 数 )。 因 此 ， 将 0 放 在 个 位 (10") 列 ， 并 将 1 向 左 移 一 位 ， 也 就 是 移 到 10 
(十 位 ) 列 ， 该 列表 示 的 是 十 位 ， 如 下 图 所 示 。 

















如 果 接 着 往 上 数 ， 我 们 会 遇 到 19 + 1=20 (2 x 10!)。 当 数 到 99 时 ， 再 往 上 数 ， 就 需要 进位 
继续 左 移 ， 因 此 结果 为 1 x 10”。 


2.1.2 二进制 计数 系统 

二 进 制 计 数 系 统 的 工作 原理 与 十 进 制 计数 系统 一 样 ， 唯 一 的 区 别 是 前 者 的 基数 为 2， 而 后 
者 的 基数 为 10。 因 此 ， 与 十 进 制 中 每 一 列 都 表示 为 以 10 为 底 的 指数 (10:| 10:|10?) 不 同 ， 
在 二 进 制 中 每 一 列 都 是 以 2 为 底 的 指数 〈22?|22|2")。 





此 外 ， 十 进 制 中 在 进位 之 前 有 0-9 这 10 个 数字 可 用 ， 而 在 二 进 制 中 只 能 使 用 0、1 这 两 个 数字 。 
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因此 ， 在 二 进 制 中 计数 ， 我 们 有 “0”“1”， 同 时 由 于 2 已 进位 到 了 下 一 位 ， 因 此 二 进 制 中 
“2” 表 示 为 10,“3” 表 示 为 11， 而 “4” 等 于 2， 需 要 再 进 一 位 ， 因 此 表示 为 100， 如 下 
图 所 示 。 


























1. 将 二 进 制 转换 为 十 进 制 

当 你 阅读 本 章 前 面 的 内 容 时 ， 我 们 确信 你 的 大 脑 已 经 将 二 进 制 数 转换 成 了 相应 的 十 进 制 
数 ， 这 是 因为 除非 一 直 以 来 都 使 用 二 进 制 数 ， 否 则 你 还 是 会 通过 其 对 应 的 十 进 制 数 来 理解 
二 进 制 数 。 


让 我 们 更 明确 一 些 ， 假 定 有 二 进 制 数 1010， 将 它 填 到 各 数位 的 列 中 ， 如 下 表 所 示 。 



































为 了 得 到 对 应 的 十 进 制 数 ， 我 们 将 数值 为 1 的 列 对 应 的 值 加 起 来 ， 通 过 上 面 的 表格 ， 得 到 
下 式 : 











2+2'=8+2=10 
因此 ， 二 进 制 数 1010 等 于 十 进 制 数 10 


通过 上 面 的 步骤 ， 可 以 看 到 ， 将 二 进 制 数 转换 为 十 进 制 数 很 简单 。 反 过 来 ， 将 十 进 制 数 转 
换 为 二 进 制 数 则 要 稍微 复杂 一 些 。 

2. 将 十 进 制 转换 为 二 进 制 

要 将 十 进 制 数 转换 为 相应 的 二 进 制 数 ， 一 种 简单 的 方法 是 用 十 进 制 数 一 直 除 以 2， 所 得 的 
余数 为 “1” 或 “0”， 然 后 将 所 有 这 些 余数 串 起 来 。 








实际 操作 一 次 更 便于 理解 。 下 面 就 用 这 种 方法 将 十 进 制 数 294 转换 为 相应 的 二 进 制 数 。 


(1) 首先 用 294 除 以 2， 所 得 的 商 为 147， 余 数 为 0。 

(2) 将 步 又 (1) 中 所 得 的 商 147 继续 除 以 2， 此 时 商 为 7 3， 余数 为 1。 

(3) 将 步骤 (2) 中 所 得 的 商 73 继续 除 以 2， 得 到 相应 的 商 和 余数 ， 重 复 这 样 的 操作 ， 直 到 所 
得 的 商 等 于 0 而 余数 等 于 1， 由 此 得 到 下 表 。 























用 十 进 制 数 重复 除 以 2 

294 列 对 应 的 值 

147 余数 0 (LSB) 2 
73 余数 1 及 
36 余数 1 2 
18 余数 0 2 
9 余数 0 多 
4 余数 1 2> 
2 余数 0 2° 
1 余数 0 27 
0 余数 1 (MSB) 2 


需要 注意 的 是 ， 如 果 上 述 步 又 中 被 除 的 十 进 制 数 是 偶数 ， 那 么 该 十 进 制 数 将 被 2 整除 ， 佘 
数 为 0， 而 如 果 该 数 是 奇数 ， 那 么 该 数 将 不 能 被 2 整除 ， 余 数 为 1。 


现在 将 所 得 的 余数 从 右 向 左 串 起 来 (通过 上 表 来 看 是 从 下 往 上 串 起 来 的 ) ， 将 最 低 有 效 位 
(least significant bit，LSB ) 放 在 最 右边 ， 最 高 有 效 位 (most significant bit，MSB ) 放 在 最 
左边 ， 由 此 得 到 100100110。 





就 这 样 ， 通 过 一 直 除 以 2 这 种 将 十 进 制 转换 为 二 进 制 数 的 技术 ， 我 们 得 到 了 最 终 的 结果 
100100110， 它 就 是 与 十 进 制 数 294 对 应 的 二 进 制 数 。 





一 通 百 通 ， 一 懂 百 懂 
结果 表明 ， 这 种 除 以 基数 的 方法 也 可 以 将 十 进 制 数 转换 为 其 他 进 制 数 。 在 计算 机 科学 
领域 ， 另 外 一 种 常用 的 基数 是 16， 也 称 为 十 六 进 制 数 。 由 于 没有 哪个 一 位 的 数字 符号 
能 表示 10 以 上 的 十 进 制 数 ， 因 此 我 们 用 字母 A 来 表示 10， 用 B 表示 11， 以 此 类 推 ， 
用 下 表示 15。 读 者 不 妨 试 一 试 将 十 进 制 数 3053 转换 为 十 六 进 制 : 先 除 以 16， 再 将 所 
得 余数 从 右 向 左 事 起 来 。 友 情 提 示 : 转换 的 结果 可 能 会 让 人 产生 睡意 。 








2.2 信息论 


好 了 ， 既 然 现 在 所 有 的 读者 都 掌握 了 二 进 制 数 ， 处 于 同一 水 平 ， 那 么 下 面 就 来 讨论 在 信息 
论 的 背景 下 二 进 制 意味 着 什么 。 
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信息 论 (名 词 ) 


即 从 数学 的 角度 研究 如 何 利用 符号 序列 、 脉 冲 序 列 或 其 他 形式 对 信息 进行 编码 ， 
以 及 信息 能 以 多 快 的 速度 在 计算 机 电路 或 者 电信 信道 中 传输 。 


根据 信息 论 的 观点 ， 一 个 数值 所 包含 的 信息 内 容 等 于 ， 为 了 在 一 个 集合 中 唯一 地 确定 这 个 
数值 ， 需 要 做 出 的 二 选 一 (是 / 否 ) 决定 的 次 数 。 








每 个 孩子 都 是 应 用 信息 论 的 专家 
20 个 问题 (20 Questions) 这 一 游戏 很 好 地 阐释 了 信息 内 容 这 个 概念 。 这 种 游戏 的 玩 
法 是 ， 第 一 个 玩家 随便 在 心里 想 一 个 东西 ， 第 二 个 (或 其 他 ) 玩家 通过 提问 来 猜 出 这 件 
东西 ， 后 者 最 多 可 提问 20 次 。 第 一 个 玩家 针对 每 次 提问 都 用 “是 ”或 “ 否 ” 来 回答 。 
鉴于 参加 游戏 的 是 小 孩 ， 我 们 会 对 这 个 游戏 进行 一 些 简 单 的 修改 ， 比 如 限定 第 一 个 玩 
家 所 想 东 西 的 范围 (例如 只 能 是 动物 )， 或 者 只 有 在 得 到 了 10 次 “ 否 ” 的 回答 后 ， 游 
戏 才 算 结 束 (如 果 第 二 个 玩家 很 快 就 猜 出 答案 的 话 ， 第 一 个 玩家 可 以 搬 议 或 者 改变 所 
想 的 东西 ， 这 些 都 是 允许 的 ) 。 
这 个 游戏 表明 ， 要 确定 任意 一 个 东西 是 什么 ， 所 需 的 信息 量 最 多 是 20 个 二 进 制 位 。 从 
数学 的 角度 来 看 ， 如 果 所 问 的 每 一 个 问题 都 能 排除 一 半 的 东西 ， 那 么 20 个 问题 事实 上 
可 以 让 提问 者 区 分 23 ( 即 1048576) 个 东西 。 
这 真是 很 多 很 多 的 东西 了 。 
我 们 还 可 以 更 进一步 。 
考虑 如 下 场景 有 一 个 100 平方 英尺 :的 房间 ， 地 上 铺 了 100 块 瓷砖 ， 上 面 是 拱 形 的 
天 花 板 ， 靠 近东 面 的 窗户 边 有 一 张 四 柱 大 床 ， 北 面 的 墙 边 有 一 张 十 色 十 香 的 小 写字 人 台 ， 
而 在 床 的 西边 则 放 着 一 个 沉重 的 18 世纪 的 衣 橱 。 
你 完全 可 以 在 一 页 纸 上 用 JSON 或 者 其 他 你 喜欢 的 脚本 语言 写 出 上 面 所 有 这 些 内 容 。 
或 者 ， 你 也 可 以 采用 下 面 这 种 略 有 不 同 的 方法 ， 用 7 个 二 进 制 位 对 地 上 的 100 块 瓷 
砖 进行 编码 ， 再 用 2 个 二 进 制 位 对 4 个 主要 方向 进行 编码 ， 然 后 对 3 件 家 有 具 进行 编 
码 ， 每 件 家 具 各 用 2 个 二 进 制 位 。 按 照 瓷砖 - 家 具 一 方向 这 样 的 顺序 ， 你 睡 的 床 可 以 
用 10010100111 来 表示 。 (每 个 二 进 制 位 的 “意义 ”这 样 的 元 信息 ， 可 以 存在 你 的 头脑 
中 ， 或 者 编码 到 组 装 这 个 房间 的 软件 中 ， 抑 或 附 在 这 些 数据 的 后 面 。) 
现在 ， 描 述 整个 房间 只 需要 44 个 二 进 制 位 或 者 6 个 字 节 就 够 了 ， 比 起 文字 描述 或 者 
JSON 文件 ， 节 省 了 相当 多 的 空间 (不 仅 我 们 这 样 认 为 ， 那 些 下 载 了 你 的 游戏 的 移动 
端 用 户 也 会 认同 ) 。 
简单 来 说 ， 这 就 是 一 个 数据 压缩 的 过 程 。 











注 


FE 2: 1 英尺 约 合 30.48 厘米 。 一 一 编者 注 








2.2.1 二 分 查找 
假定 有 一 个 已 经 确定 了 范围 且 排 好 序 的 整数 数组 ， 比 如 说 0~15， 我 们 想 找 出 数值 10 在 这 
个 数组 中 的 位 置 。 


二 分 查找 算法 的 工作 原理 是 这 样 的 : 首先 将 数组 中 的 数据 集 分 成 两 半 ， 然 后 判断 要 找 的 数 
值 10 比 处 于 中 间 位 置 的 枢 轴 值 是 大 还 是 小 *。 根 据 对 比 的 结果 , 我 们 将 数组 分 成 了 两 半 , 并 
保留 包含 10 的 那 一 半数 据 进行 进一步 的 查找 。 然 后 再 次 将 10 与 新 的 枢 轴 值 进行 比较 ， 并 
继续 将 数组 分 成 两 半 。 一 直 这 样 进行 下 去 ， 直 到 最 终 只 剩 下 我 们 要 找 的 数值 10。( 如 果 这 
听 上 去 与 前 面 所 说 的 20 个 问题 游戏 有 些 相 似 ， 那 是 因为 事实 确实 如 此 ! ) 


在 查找 的 过 程 中 ， 每 当 我 们 比较 枢 轴 值 与 要 查找 的 值 的 大 小 时 ， 不 妨 和 输出 一 个 二 进 制 位 来 
表示 我 们 所 做 的 决定 (约定 用 0 表示 小 于 ， 用 1 表示 大 于 )。 



































实际 操作 更 便于 理解 ， 下 面 就 实际 操作 一 人 帝 ， 具 体 如 图 2-1 所 示 。 














查找 数值 10 
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输出 = 1010 
正好 是 数值 10 
的 二 进 制 表 示 
图 2-1: 在 一 个 有 限 的 数值 范围 内 进行 二 分 查找 。 如 果 将 每 一 步 所 做 的 决定 (选择 大 值 端 还 是 小 值 端 ) 
都 保存 下 来 ， 最 终 就 会 得 到 要 查找 的 数值 的 二 进 制 形式 














注 3: 当然 ， 如 果 一 个 数组 包含 偶数 个 元 素 ， 那 么 真正 处 于 中 间 的 元 素 是 不 存在 的 。 这 种 情况 下 ， 可 以 根据 
喜好 从 中 间 偏 左 或 中 间 偏 右 这 两 个 元 素 中 任 选 一 个 。 











14 | 第 2 章 





这 里 最 终 的 输出 值 是 二 进 制 值 1010， 这 个 值 很 有 意思 ， 它 恰好 是 我 们 要 查找 的 数值 10 的 
二 进 制 形式 。 对 元 素 个 数 等 于 21 的 数据 集 ， 我 们 通过 记录 为 了 明确 描述 一 个 数 ， 做 了 多 
少 次 “是 ”或 “ 否 ” 的 决定 ， 来 表示 这 个 数 。 


如 果 你 希望 能 在 聚会 中 独处 ， 不 妨 试 试 与 其 他 人 讨论 这 个 话题 。 我 歼 肯 定 ， 
这 样 做 之 后 ， 你 很 快 就 会 成 为 那个 很 尴 炊 的 人 。 





2.2.2 炉 : 表示 一 个 数 所 需要 的 最 少 二 进 制 位 数 

可 以 看 到 ， 给 定 任 意 一 个 整数 ， 我 们 都 能 将 它 转换 为 二 进 制 形式 。 然 而 邻 人 遗憾 的 是 ， 给 
定 一 个 整数 ， 如 果 不 经 过 二 进 制 转换 这 一 过 程 ， 我 们 很 难 直接 知道 它 需要 占 几 个 二 进 制 
位 。 转 换 过 程 很 无 趣 ， 但 好 在 数学 家 已 准备 了 下 面 的 公式 ， 让 我 们 可 以 更 轻松 地 处 理 这 个 
问题 “: 




















lb(x) = (logCo/log(2)) = 表示 一 个 数 所 需要 的 二 进 制 位 数 
从 数学 上 来 说 ，lb 将 产生 一 个 浮 点 数 ， 例 如 ，1b(10) = 3.321。 
然而 ， 从 技术 角度 来 说 ， 由 于 现代 的 计算 机 硬件 无 法 表示 3.321 个 二 进 制 位 (这 是 因为 二 进 
制 位 已 经 是 数据 的 最 小 单位 ， 我 们 能 使 用 的 最 小 的 二 进 制 位 数 就 是 1)， 因 此 我 们 必须 对 这 
个 值 向 上 取 整 ， 也 就 是 使 用 向 上 取 整 函数 ， 即 ceil (或 ceiling) 函数 ， 从 而 将 上 面 的 公式 更 
新 为 下 式 (由 于 这 是 一 个 更 整洁 的 版 本 ， 因 此 我 们 决定 用 大 写字 母 来 表示 ， 以 示 区 别 ) : 

















LOG2(x) = ceil(log(x)log(2)) 




















不 过 ， 这 又 产生 了 另外 一 个 问题 ， 因 为 从 技术 上 来 说 ， 如 果 一 个 数 正好 是 2 的 需 ， 那 么 通 
过 这 一 公式 所 得 的 结果 要 比 实际 需要 的 二 进 制 位 数 小 1。 




















下 面 以 2 (或 者 任何 其 他 2 的 需 ) 为 例 : 





LOG2(2) = ceil(log(2)log(2)) =1 
LOG2(4) = ceil(log(4)/log(2)) = 2 


可 以 看 到 ， 从 数学 上 来 说 ， 上 面 计算 的 结果 都 正确 ， 但 实际 上 在 计算 机 系统 中 表示 2 (二 
进 制 为 10) 和 4 (二 进 制 为 100) 分 别 需要 2 个 和 3 个 二 进 制 位 。 因 此 ， 还 需要 对 上 述 公 
式 做 一 些 修正 ， 以 确保 在 遇 到 2 的 需 这 些 特 殊 的 数 时 所 得 的 结果 还 是 正确 的 。 








LOG2(x) = ceil(log(x + 1)log(2)) 








注 4: 很 抱歉 又 用 到 了 数学 ， 不 过 这 是 理解 后 面 的 内 容 所 必需 的 。 






































为 了 让 你 更 清楚 地 理解 这 一 概念 ， 我 们 来 看 下 表 ， 其 中 展示 了 关于 LOG2 的 一 些 很 有 趣 的 











数据 ， 以 及 用 二 进 制 表示 相应 的 数 所 需 的 二 进 制 位 的 数量 。 

十 进 制 数 LOG2 ( 值 ) 二进制 表示 

0 1 0 

1 1 1 

2 2 10 

3 2 11 

4 3 100 

7 3 111 

15 4 1111 

255 8 11111111 

65535 16 1111111111111111 

9.332622e + 157 55 

因此 ， 给 定 任意 一 个 十 进 制 整 数 ， 通 过 计算 它 对 应 的 LOG2 函数 的 值 ， 我 们 就 能 知道 用 二 
进 制 来 表示 这 个 数 最 少 需要 多 少 二 进 制 位 。 香 农 将 一 个 变量 对 应 的 LOG2 函数 的 值 定义 为 
它 的 精 (entropy)， 也 就 是 用 二 进 制 来 表示 这 个 数 所 需 的 最 少 二 进 制 位 数 。 


2.2.3 ”标准 的 数字 长 度 


数值 的 


LOG2 表示 形式 虽然 高 效 ， 但 对 于 制造 计算 机 元 件 的 方式 来 说 并 不 实用 。 











这 其 中 
时 会 产 
两 者 不 





现代 计 


的 问题 在 于 ， 如 果 用 最 少 的 二 进 制 位 数 来 表示 一 个 数 ， 在 解码 相应 的 二 进 制 字符 串 
生 混乱 (因为 我 们 并 不 知道 该 数 对 应 的 LOG2 长 度 ) ， 会 与 硬件 的 执行 性 能 相 冲 突 ， 























能 兼顾 。 





算 机 采用 了 折 中 的 方案 ， 用 固定 长 度 的 二 进 制 位 数 来 表示 大 小 不 同 的 整数 。 最 基本 


的 存储 单元 是 一 个 字 节 ， 由 8 个 二 进 制 位 组 成 。 在 现代 编程 语言 中 ， 通 常 可 用 的 整数 的 存 


储 类 型 








包括 : 短 整 型 16 个 二 进 制 位 、 整 型 32 个 二 进 制 位 、 长 整 型 64 个 二 进 制 位 。 因 此 ， 

















对 于 十 进 制 数 10， 虽 然 其 对 应 的 二 进 制 数 为 1010， 但 在 实际 存储 中 是 短 整 型 ， 在 计算 机 


中 的 实 
这 里 需 
的 固定 
实际 实 
节 对 章 


际 表示 为 0000000000001010。 显 然 ， 这 样 做 浪费 了 很 多 的 二 进 制 位 。 





要 指出 的 是 ， 在 现代 应 用 程序 开发 中 ， 我 们 所 用 到 的 绝 大 多 数 算法 使 用 预先 设 定好 
的 二 进 制 位 长 度 ， 而 不 是 通过 LOG2 函数 计算 出 的 二 进 制 位 长 度 。 这 就 是 信息 论 与 
现 层面 的 差别 。 在 计算 机 内 存 中 ， 我 们 遇 到 的 任何 二 进 制 位 流 都 会 舍 人 到 下 一 个 字 
的 大 小 。 这 可 能 会 让 人 困惑 ， 比 如 当 我 们 只 存储 了 7 个 二 进 制 位 的 数据 时 ， 计 算 机 











仍然 会 报告 说 我 们 所 存储 的 数据 长 度 与 计算 机 一 次 读 取 的 最 小 字 节 数 相同 。 


实际 中 





压缩 算法 ， 从 而 顺利 掌握 本 书后 面 的 内 容 ， 我 们 只 从 LOG2 的 角度 去 考虑 问题 的 原因 。 











的 数据 压缩 目标 ， 是 尽 可 能 接近 理论 上 的 压缩 极限 。 这 就 是 为 了 更 好 地 学 习 和 理解 
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3.1 “理解 灶 


由 于 没有 更 好 的 方法 ， 因 此 香农 博士 将 一 个 数 对 应 的 LOG2 函数 值 称 为 该 数 的 炉 ， 也 就 是 
表示 这 个 数 所 需要 的 最 少 二 进 制 位 数 。 他 进一步 将 炉 的 概念 (既然 已 经 提出 了 这 一 术语 了 ， 
为 什么 不 重复 利用 呢 ……) 扩展 到 整个 数据 集 ， 也 就 是 表示 整个 数据 集 所 需要 的 最 少 二 进 
制 位 数 。 他 完成 了 所 有 这 方面 的 数学 工作 ， 并 给 出 了 下 面 这 个 优美 的 公式 来 计算 一 个 集合 
的 炉 H(S): 

















H(S)=- plb(p) 


这 个 公式 乍 看 起 来 可 能 有 些 吓 人 “， 因 此 我 们 将 它 拆 开 来 分 析 ”。 
炉 (名 词 ) 


一 个 热力 学 量 ， 表 示 的 是 一 个 系统 中 无 法 转换 为 机 械 功 的 热能 的 量 ， 通 常 被 解释 
为 该 系统 的 无 序 度 或 随机 度 ( 物理 学 中 的 解释 )。 

无 序 或 缺乏 可 预测 性 ， 逐 渐 退 化 为 混乱 (了 .了 P Lovecraft )。 

对 在 特定 的 消息 或 语言 中 信息 传输 速度 的 一 种 对 数 度量 〈 信 息 论 中 的 解释 )。 











注 1: 香农 决定 借用 玻 尔 效 曼 HH 定理 中 的 符号 万 ( 即 大 写 的 希腊 字母 eta) 来 表示 恼 。 

注 2: 注意 , 炉 的 计算 公式 中 使 用 的 lb0) 是 数学 意义 上 的 ,与 我 们 在 第 2 章 定义 的 LOG20 函数 不 同 。 因 此 ， 
这 里 通过 lb0 计算 出 的 结果 不 会 向 上 取 整 ， 同 时 也 允许 该 值 为 负 。 

注 3: 你 可 以 在 Rosetta Code 网 站 上 找到 这 一 算法 在 各 种 语言 中 的 实现 。 









































更 实际 具体 一 些 ， 我 们 先 来 看 一 组 字母 ， 例 如 : 
G=[AB,B,C,CC,D,D,D,D] 

首先 ， 计 算 这 个 数据 分 组 G 中 所 包含 的 元 素 集合 8 (这 里 所 说 的 “集合 ”是 数学 意义 上 的 
集合 ， 即 集合 中 的 每 个 元 素 只 出 现 一 次 ， 且 元 素 之 间 的 顺序 无 关 紧 要 )。 

S= set(G)= [A,B,C,D] 
这 就 是 G 中 所 包含 的 不 同 的 符号 的 集合 。 
下 一 步 ， 计 算 集 合 中 的 每 个 符号 在 数据 分 组 中 出 现 的 概率 ， 其 计算 公式 为 

Pi = count(vi)/len(O) 
这 个 计算 公式 是 说 ， 一 个 符号 ”出现 的 频率 或 概率 PP， 等 于 这 个 符号 在 数据 分 组 G 中 出 
的 次 数 (也 就 是 公式 中 的 count(v)) 除 以 数据 分 组 G 的 长 度 。 
为 了 将 数学 转化 为 图 表 ， 我 们 来 计算 G 中 每 一 个 符号 出 现 的 概率 。 因 为 G 中 共有 10 个 符 
号 ， 所 以 len(G) 等 于 10， 因 此 每 个 符号 的 概率 都 等 于 0.1 的 倍数 。 





‘i 





现 











符号 次 数 概率 
A 1 0.1 
B 2 0.2 
C 3 0.3 
D 4 0.4 
和 必然 等 于 ,1.0 





既然 已 经 计算 出 了 每 一 个 符号 出 现 的 概率 ， 下 面 就 可 以 进一步 计算 香农 所 定义 的 数据 分 组 
G 的 炉 有 石 。 现 在 再 回 过 头 来 看 上 面 那 个 优美 的 公式 ， 相 信 你 已 经 不 觉得 它 叶 人 了 ， 因 为 它 
要 比 你 想 的 简单 得 多 : 














n 


H(S)= -2 lb(p,) 


第 一 步 ， 对 于 每 个 符号 ， 将 其 出 现 的 概率 乘 以 此 概率 以 2 为 底 的 对 数 ， 然 后 ， 将 第 一 步 所 
得 的 数 相 加 求 和 ， 再 取 其 相反 数 ， 这 样 就 得 到 了 这 一 数据 分 组 的 业 。 
下 面 来 计算 前 面 所 举 的 示例 G 的 炉 ， 如 下 表 所 示 。 






































下 标 / 概率 pp; lb(p;) pi*lb(p)) 
1 0.1 -3.321 -0.3321 
2 0.2 -2.321 -0.4642 
3 0.3 一 1.736 -0.5208 
4 0.4 -1.321 -0.5284 
总 和 —1.8455 





注 4: 其 中 的 字母 是 否 排 好 序 无 关 紧要 ， 它 不 会 对 炉 产 生 影响 ， 本 章 后 面 会 提 到 这 一 点 。 我 们 之 所 以 选择 排 
好 序 的 示例 ， 是 为 了 让 读者 一 眼 就 能 看 出 每 个 字母 的 个 数 。 
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对 最 后 一 列 求 和 ， 得 到 -1.8455 (允许 有 些小 误差 )。 求 炉 公 式 的 最 前 面 还 有 一 个 负 号 ( 即 
求 和 符号 > 前 面 的 那个 负 号 ) ， 因 此 得 出 结论 : 表示 这 组 数据 每 个 符号 平均 约 需 要 1.8455 
个 二 进 制 位 。 搞 定 ! 


3.2 ” 录 有 什么 用 处 呢 


因为 G = [A,B,B,C,C,C,D,D,D,D] 的 炉 HG) = 1.8455， 所 以 我 们 可 以 大 致 认 为 平均 每 个 值 用 
2 个 二 进 制 位 (通过 向 上 取 整 运算 获得 ) 就 可 以 对 G 进行 编码 。 


这 样 赋 给 每 个 符号 2 个 二 进 制 位 的 编码 值 : 


























可 以 像 下 画 











A->00 
B ->01 
C -> 10 
D=>11 


这 样 一 来 ， 用 二 进 制 编码 表示 的 G* 就 会 是 下 面 这 样 : 
e=[00,01,01,10,10,10,11,11,11,11] 
这 样 编码 之 后 ， 得 到 的 G 大 小 就 是 20 个 二 进 制 位 〈 在 大 多 数 教科 书 中 表示 为 1G |)。 


这 
下 面 是 很 有 趣 的 部 分 : 为 了 得 出 G 的 最 终 大 小 ， 实 际 上 不 需要 进行 编码 这 一 步 ， 只 需要 
将 炉 五 的 值 向 上 取 整 再 乘 以 G 的 长 度 ( 即 |G|) 就 能 得 出 结果 : 





























2 





AH(G) Xx|G|=2x10=20 个 二 进 制 位 =|G| 
根据 香农 的 炉 的 定义 ， 这 就 是 表示 这 一 数据 集 所 需要 的 最 小 二 进 制 位 数 “。 


因此 ， 总 结 起 来 就 是 ， 为 了 使 表示 某 个 数据 集 所 需 的 二 进 制 位 数 最 少 ， 数 据 集中 的 每 个 符 
号 平均 所 需 的 最 小 二 进 制 位 数 就 是 灶 。 


3.3 理解 概率 


从 本 质 上 来 说 ， 香 农 所 定义 的 录 ， 是 以 一 种 倒 排 序 的 方式 建立 在 数据 疲 中 每 个 符号 出 现 概 
率 的 估算 之 上 的 。 

总 的 来 说 ， 一 个 符号 出 现 得 越 频 紧 ， 它 对 整个 数据 集 包 含 的 信息 内 容 的 贡献 就 会 越 少 ， 这 
看 起 来 似乎 完全 违背 直觉 。 











主 5: 记 住 实际 上 二 进 制 位 数 根本 不 可 能 是 小 数 。 
注 6: 这 样 的 说 法 是 错误 的 ， 稍 后 会 说 明 为 什么 。 


na 
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钓鱼 就 是 这 样 一 个 真实 的 例子 。 设 想 你 坐 在 岸 边 草坪 中 的 躺椅 上 ， 戴 着 漂亮 的 帽子 ， 手 拿 卷 
简 和 连 杆 ， 望 着 河面 和 鱼 浮 。 每 隔 几 分 钟 ， 你 就 会 看 一 眼 鱼 浮 ， 发 现 它 并 没有 变化 ， 但 每 隔 
一 小 时 左右 ， 就 会 有 鱼 咬 钓 ， 这 才 是 你 真正 感 兴 趣 的 事情 。 也 就 是 说 ， 很 长 的 时 间 里 没有 什 
么 有 用 的 信息 ， 真 正 有 用 的 信息 偶尔 才 会 出 现 。 如 果 用 0 表示 没有 鱼 ， 用 1 表示 鱼 上 钓 ， 那 
么 你 记录 的 信息 里 很 容易 出 现 这 样 的 片段 : 0000000010000000001000000000001。 
































从 统计 上 来 说 〈 从 运动 角度 来 说 同样 如 此 )， 我 们 感 兴趣 的 是 鱼 在 咬 钧 这样 的 事件 ， 其 他 
的 都 是 元 余 信 息 。 











比喻 就 说 到 这 里 ， 下 面 来 看 一 些 数值 的 例子 。 下 表 展 示 了 一 些 概率 的 集合 (这 里 我 们 不 关 
心 实际 的 符号 ) 以 及 这 些 集合 相应 的 灶 。 


























概率 集合 P(G) 暗 HG) ”对 于 一 个 包含 1000 个 符号 的 数据 集 来 说 …… 
[0.001, 0.002, 0.003, 0.994] 0.06 其 中 会 有 994 个 相同 的 符号 

[0.25, 0.25, 0.003, 0.497] 1.53 其 中 会 有 497 个 相同 的 符号 

[0.1, 0.1, 0.4, 0.4] 1.72 其 中 会 有 2 个 符号 ， 各 出 现 400 次 

[0.1, 0.2, 0.3, 0.4] 1.84 其 中 会 有 1 个 符号 是 主要 符号 ， 但 不 占 大 多 数 
[0.25, 0.25, 0.25, 0.25] 2 共有 4 个 符号 ， 各 出 现 250 次 








那么 ， 应 该 如 何 理解 这 张 表 呢 ? 


第 一 行 中 ， 第 四 个 符号 出 现 的 概率 最 大 ， 可 以 说 占据 了 绝 大 多 数 的 出 现 机 会 。 换 名 话说， 
这 个 数据 集 主 要 是 由 其 中 的 一 个 符号 组 成 的 ， 偶 尔 会 有 其 他 符号 随机 出 现 。 由 于 这 个 数据 
流 中 的 绝 大 多 数 内 容 是 其 中 一 个 符号 ， 这 就 意味 着 这 个 数据 集中 包含 的 总 体 信息 很 少 ， 因 
此 对 应 的 箭 值 也 很 小 。 

















再 来 看 表 中 的 最 后 一 行 ， 可 以 看 到 4 个 符号 等 可 能 地 出 现 ， 因 此 它们 对 整个 数据 流 内 容 的 
贡献 相同 。 结 果 是 这 个 数据 集 包 含 了 更 多 的 信息 ， 因 此 需要 用 更 多 的 二 进 制 位 来 表示 它 。 


举 个 类 似 的 例子 ， 打 地 鼠 游 戏 之 所 以 很 有 趣 ， 是 因为 地 鼠 出 现在 每 个 洞 的 可 能 性 相同 ， 所 
以 事先 永远 不 会 知道 地 鼠 会 从 哪个 洞 里 钻 出 来 ， 这 就 使 它 比 钓鱼 有 趣 得 多 。 


3.4 ”突破 炳 


数据 压缩 领域 的 最 前 沿 都 是 关于 如 何 改 变 粹 的 。 事 实 上 ， 整 个 数据 压缩 科学 界 的 人 士 都 认 
为 炉 是 互联 网 上 的 一 大 “谎言 ”。 














真相 是 ， 实 际 上 ”， 通 过 利用 真实 数据 的 两 个 性 质 ， 我 们 完全 有 可 能 将 数据 压缩 得 比 烂 定义 
的 还 要 小 。 按 照 香农 对 灶 的 定义 ， 他 只 考虑 了 符号 出 现 的 概率 ， 完 全 没有 考虑 符号 之 间 的 
排序 。 而 对 真实 数据 集 来 说 ， 排 序 是 一 项 基本 的 信息 ， 符 号 之 间 的 关系 同样 如 此 。 














注 7: 这 人 句 话 可 以 从 “理论 ”上 来 理解 。 








20 | 第 3 章 


例如 ， 排 好 序 的 [1,2,3,4] 和 没有 排序 的 [4,1,2,3] 这 两 个 集合 ， 按 照 香农 的 定义 ， 两 者 的 
烂 相同 ， 但 是 凭 直觉 我 们 就 能 发 现 ， 其 中 的 一 个 集合 包含 了 额外 的 排序 信息 。 我 们 再 
来 看 一 个 元 素 为 字母 的 例子 ，[Q,U,A,R,K] 和 [K,R,U,Q,A] 这 两 个 集合 有 相同 的 炉 ， 但 
[Q,U,A,R,K] 这 个 集合 表示 的 是 英语 中 一 个 有 意义 的 单词 ， 而 且 字 母 的 出 现 也 有 一 定 的 规 
则 ， 比 如 字母 Q 后 面 通常 会 跟着 字母 U。 


下 面 举 儿 个 例子 来 看 一 下 如 何 利用 数据 的 性 质 来 突破 烂 。( 请 措 起 袖子 ， 我 们 将 要 压缩 一 
些 数据 ! ) 

突破 烂 的 关键 在 于 ， 通 过 利用 数据 集 的 结构 信息 将 其 转换 为 一 种 新 的 表示 形式 ， 而 这 种 新 
表示 形式 的 炉 比 源 信息 的 炉 小 。 


3.4.1 示例 1: 增 量 编码 


元 素 递增 的 集合 [0,1,2,3,4,5,6,7] 称 为 集合 4。 
































现在 ， 打 乱 集 合 4 中 元 素 的 顺序 ， 得 到 集合 B = [1,0,2,4,3,5,7,6]。 
根据 信息 论 的 观点 ， 这 两 个 集合 具有 如 下 独特 的 性 质 : 


。 所 有 的 符号 都 等 可 能 地 出 现 ， 并 且 没 有 重复 的 符号 ; 
。 集合 4 和 和 集合 8 的 炉 有 五 相等 ， 都 等 于 3。 

因此 ， 根 据 香农 的 定义 ， 每 个 符号 都 需要 用 3 个 二 进 制 位 来 编码 ， 而 每 个 集合 则 需要 24 
个 二 进 制 位 。 然 而 最 终 的 结果 是 ， 我 们 很 容易 就 能 突破 灼 限制 ， 用 更 少 的 二 进 制 位 对 集 
合 4 进行 编码 ， 有 具体 方法 如 下 。 





集合 4 实际 上 是 数 的 一 个 线性 递增 序列 。 因 此 ， 无 须 对 其 中 的 每 个 数 都 进行 编码 ， 而 是 可 以 
对 整个 数据 流 进行 转换 ， 将 各 个 数 编码 为 其 与 前 一 个 数 的 差 。 所 以 ， 编 码 后 的 4 会 是 这 样 : 








[0,1,1,1,1,1,1,1] 
这 一 数据 流 的 炉 H(4) = 1， 结 果 还 不 错 吧 ? 

这 样 的 转换 一 般 称 为 增 量 编码 (delta coding)， 也 就 是 将 一 系列 的 数 转 换 为 其 与 上 一 个 数 
的 差 后 再 编码 *。 

下 面 来 讨论 集合 8B。 由 于 8 中 的 数 并 不 是 线性 递增 的 ， 因 此 增 量 编 码 的 方法 不 会 起 作 
用 ,这样 操作 之 后 我 们 会 得 到 集合 [1.-12,2-12,2,-1]， 其 烂 为 2， 乍 一 看 这 个 结果 还 
不 错 。 然 而 ， 如 果真 的 这 样 做 ， 那 么 首先 需要 用 16 个 二 进 制 位 将 多 重 集合 PF 编码 为 
[01,00,10,10,00,10,10,00]。 此 外 ， 还 需要 告诉 解码 器 编码 “00” 表 示 的 是 符号 -1， 这 就 需 












































注 8: 如 果 这 里 不 太 理解 ， 不 用 担心 ， 第 8 章 会 深入 讨论 这 一 编码 方法 。 
注 9: 多 重 集合 是 指 同一 个 元 素 可 以 多 次 出 现 的 集合 。 
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要 额外 的 空间 来 存储 。 因 此 ， 即 使 能 节省 空间 ， 也 节省 不 了 多 少 。( 实 际 上 ， 对 某 些 集合 
来 说 ， 与 直接 对 数据 进行 编码 相 比 ， 增 量 编码 所 需要 的 二 进 制 位 甚至 要 更 多 。) 





顺序 很 重要 


根据 蚁 的 定义 ， 符 号 之 间 的 顺序 无 关 紧 要 ， 但 增 量 编码 证 明 事 实 并 非 如 此 。 如 果 相 领 
的 值 之 间 高 度 相 关 ， 那 么 用 增 量 编码 的 方法 可 以 转换 数据 ， 使 其 精 变 得 更 小 。 











3.4.2 示例 2: 符号 分 组 
假定 你 遇 到 了 字符 串 8$ =“TOBEORNOTTOBEORTOBEORNOT”， 它 包含 了 不 同 符号 的 集 
合 [0OTB,E,RN]， 而 粒 8) = 2.38。 






































任何 人 看 一 眼 这 个 字符 串 ， 都 能 意识 到 其 中 含有 重复 的 单词 。 因 此 ， 如 果 不 是 将 单个 的 
字母 当成 符号 ， 而 是 把 单词 当成 符号 ， 情 况 又 会 如 何 呢 ? 这 样 一 来 ， 我 们 有 单词 集合 
[TO,BE,OR,NOT]， 其 炉 HS) = 1.98。 














因此 ， 对 这 样 的 数据 疲 来 说 ， 用 单词 作为 符号 ， 得 到 的 稍 值 会 更 小 。 那 么 ， 采 用 这 种 符号 
分 组 的 方法 ， 我 们 能 走 多 远 呢 ? 再 观察 这 个 字符 串 ， 我 们 发 现 “TOBEORNOT” 这 个 词组 
出 现 过 多 次 ， 那 么 能 否 将 词组 当成 一 个 符号 呢 ? 


昌 i 试 着 计算 一 下 2 




















下 











set(S) = [TOBEORNOT,TO,BE,OR]， 其 炉 H(S) = 1.92" 


显然 这 个 炉 值 更 小 ! “ 





字符 分 组 很 重要 
上 述 字符 分 组 的 例子 表明 ， 如 果 数据 集中 存在 连续 值 组 合 出 现 多 次 的 情况 ， 就 可 以 利 
用 这 种 情况 来 减 小 灶 。 一 般 来 说 ， 通 过 最 佳 符号 分 组 预 处 理 数据 ， 会 得 到 一 个 较 小 的 
炳 值 。 











3.4.3 示例 3: 排列 


一 件 有 趣 的 事 是 ， 示 例 1 中 的 集合 B[1,0,2,4,3,5,7,6] 是 集合 4[0,1,2,3,4,5,6,7] 打 乱 后 的 版 
本 ， 或 者 说 是 4 的 一 个 排列 。 








注 10: 当然 , 虽然 从 理论 上 来 说 这 两 种 分 组 方法 的 结果 不 同 , 但 实际 上 对 这 个 小 数据 集 来 说 , 两 种 方法 一 样 ， 
即 每 个 符号 都 需要 2 个 二 进 制 位 ， 不 过 这 里 主要 关心 的 是 超越 香农 。 

注 11: 值得 一 提 的 是 ， 关 于 符号 分 组 ， 一 般 有 最 佳 的 分 组 方法 ， 而 且 有 一 个 专门 的 数据 转换 研究 领域 帮 有 我 
们 找 出 最 佳 的 分 组 方法 , 通常 被 称 为 “字典 编码 器 ”(Dictionary Encoders), 第 7 章 会 讨论 这 个 话题 。 
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在 数学 中 ， 排 列 这 一 概念 是 指 重新 安排 或 者 改变 一 个 集合 的 所 有 元 素 的 次 序 或 者 
顺序 。 


实际 上 ， 一 个 排列 就 是 原来 的 集合 打 乱 顺序 后 的 一 个 版 本 ， 这 里 ， 我 们 会 关注 集合 元 素 之 
间 的 顺序 ， 并 且 确 保 没 有 重复 元 素 。 从 经 典 的 定义 来 看 ， 只 有 同一 组 数 的 不 同 顺序 才 算 排 
列 ， 比 如 可 以 说 [2.13. 4] 是 [123 人] 的 一 个 排列 ， 但 [5.2.7 9] 就 不 是 。 


排列 很 难 压缩 是 出 了 名 的 。( 有 些 人 甚至 认为 基本 不 可 能 ， 我 们 无 法 确定 他 们 是 否 真 的 理 
解 这 个 词 的 含义 。) 原因 很 简单 ， 从 灶 的 角度 来 看 ， 一 个 排列 是 不 可 压缩 的 ， 因 为 排序 本 
身 并 不 包含 什么 信息 (这 是 因为 它 已 经 不 再 是 有 序 的 )。 由 于 每 个 值 出 现 的 可 能 性 相同 ， 
因此 需要 相同 数量 的 二 进 制 位 来 表示 。 


集合 O = [2,1,3,0] 编码 后 的 大 小 等 于 len(O) x lb(max(O)) = 8 个 二 进 制 位 ”, 可 以 将 其 大 小 的 


计算 公式 归纳 为 NxLOG2(WW)， 请 记 住 这 个 公式 。 当 对 数据 压缩 、 信 息 论 和 焙 有 更 多 的 了 
解 时 ， 这 个 值 会 一 再 出 现 ， 提 醒 我 们 在 这 个 宇宙 中 我 们 是 多 么 微不足道 。 


























通过 消除 编码 法 压缩 排列 
还 记得 前 面 说 过 排列 不 可 压缩 吗 ? 不 好 意 忌 思 ， 我 们 说 说 了 。 不 过 这 个 说 不 大 ， 而 且 有 
必要 所 这 个 说 ， 这 样 你 才 明 自 形势 的 严峻 。 同 时 ,我 们 也 要 对 你 说 一 声 “ 抱 菊 ”"。 事 实 
上 ， 排 列 是 可 以 稍微 压缩 的 ， 但 这 个 过 程 没什么 意思 ， 也 没 多 少 实际 价值 。 不 过 ， 我 
们 还 是 准备 看 一 看 。 
我 们 来 看 集合 C=[5,7,1,4,6,3,2,0]。 


根据 集合 的 元 素 值 对 它 进 行 编码 ， 由 于 最 大 值 为 7， 因 此 每 个 元 素 都 需要 3 个 二 进 制 
位 ， 编 码 后 有 : 


101 111 001 100 110 011 010 000 
一 共 是 24 个 二 进 制 位 。 


现在 ， 换 一 种 方法 ， 通 过 索引 来 编码 ， 具 体 步 骤 如 下 。( 如 果 你 喜欢 传统 的 方法 ， 不 妨 
拿 着 纸 和 铅笔 跟着 做 .) 


第 一 轮 操 作 
创建 一 个 包含 8 个 元 素 的 空 数组 ， 每 个 下 标 为 i 的 元 素 保存 的 值 为 ij， 如 下 图 所 示 。 


I 


7 索引 
(1) 从 集合 C 中 的 第 一 个 元 素 开始 ， 其 值 为 5。 




















注 12: 这 里 我 们 用 max(4) 来 表示 集合 4 中 的 最 大 元 素 ， 即 按 递 增 排序 后 集合 4 中 的 最 后 一 个 元 素 。 
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(2) 计算 该 数 的 空闲 位 置 下 标 (Free-Slot-Index)， 即 找 出 其 值 为 5 的 元 素 的 下 标 。 在 这 
个 例子 中 ，5 的 下 标 就 是 5。 

(3) 计算 出 你 需要 多 少 二 进 制 位 才能 对 这 一 下 标 进行 编码 ， 这 可 以 通过 计算 元 素 个 数 的 
LOG2 得 出 。 由 于 一 共有 8 个 元 素 ， 因 此 LOG2(8)=3， 即 3 个 二 进 制 位 。 所 以 ， 可 
以 用 3 个 二 进 制 位 对 5 进行 编码 ， 即 101。 

(4) 将 值 为 5 的 元 素 从 数组 中 删除 。 


输出 流 为 101， 新 的 工作 数组 如 下 图 所 示 。 
[oi 13416|7| 
0 | 3 4 S 6 


第 二 轮 操 作 

(1) 从 集合 C=[5,7,1,4,6,3,2,0] 中 取 第 二 个 元 素 ， 即 7。 

(2) 从 数组 中 找 出 其 值 为 7 的 元 素 下 标 。 现 在 ，7 的 下 标 为 6。 

(3) 数 组 中 还 有 7 个 元 素 ， 而 LOG2(7)=3， 因 此 用 3 个 二 进 制 位 对 下 标 6 编码 并 输出 ， 
得 到 110。 

(4) 将 值 为 7 的 元 素 从 数组 中 删除 。 


输出 流 为 101 110， 新 的 工作 数组 如 下 图 所 示 。 
011|12|13|14156| 
0 1 有 3 4 5 


第 三 轮 操作 

(1) 从 集合 C 中 取 第 三 个 元 素 ， 即 1。 

(2) 从 数组 中 找 出 其 值 为 1 的 元 素 的 下 标 。 现 在 ，1 的 下 标 为 1 。 

(3) 数 组 中 还 有 6 个 元 素 ， 而 LOG2(6)=3， 因 此 用 3 个 二 进 制 位 对 下 标 1 编码 并 输出 ， 
得 到 001。 

(4) 将 值 为 1 的 元 素 从 数组 中 删除 。 


输出 流 为 101 110 001， 新 的 工作 数组 如 下 图 所 示 。 
ol2|l3|*|e| 
0 L 2 3 4 


第 四 轮 操作 


(1) 取 集合 C 的 第 四 个 元 素 ， 即 4。 

(2) 从 数组 中 找 出 4 对 应 的 下 标 ， 即 3。 

(3) 数 组 中 还 有 5 个 元 素 ， 而 LOG2(S$)=3， 因 此 用 3 个 二 进 制 位 对 下 标 3 编码 并 输出 ， 
得 到 011。 

(4) 将 值 为 4 的 元 素 从 数组 中 删除 











输出 流 为 101 110 001 011， 新 的 工作 数组 如 下 图 所 示 。 


021315 

0 1 网 3 
第 五 轮 操 作 
现在 ， 事 情 变 得 有 趣 起 来 。( 我 们 已 经 从 数组 中 取出 了 一 半 的 元 素 ，[ 生 57514,6,3,2,0]。) 
(1) 取 第 五 个 元 素 ， 即 6。 
(2) 从 数组 中 找 出 6 对 应 的 下 标 ， 即 3。 
(3) 此 时 ， 数 组 中 元 素 的 个 数 变 为 4， 而 LOG2(4)=2, 因此 只 需要 2 个 二 进 制 位 就 可 以 

对 下 标 进行 编码 。 
(4) 用 2 个 二 进 制 位 对 下 标 3 编码 并 输出 ， 得 到 11 
(5) 将 值 为 6 的 元 素 从 数组 中 删除 。 
输出 流 为 101 110 001 011 11， 数 组 如 下 图 所 示 。 
0 1 2 

最 后 的 操作 


(1) 下 一 个 值 为 3。 

(2) 其 对 应 的 下 标 为 2。 

(3) 用 2 个 二 进 制 位 对 下 标 2 编码 并 输出 ， 得 到 10。 
(4) 将 值 为 3 的 元 素 从 数组 中 删除 。 


输出 流 为 101 110 001 011 11 10， 数 组 如 下 图 所 示 。 


0 1 
(1) 下 一 个 值 为 2， 其 对 应 的 下 标 为 1， 个 二 进 制 位 进行 编码 。 
(2) 最 后 一 个 值 为 0， 0 二 1 二 进 制 位 进行 编码 。 
最 终 的 输出 流 为 101 110 001 011 11 10 10， 其 长 度 为 18 个 二 进 制 位 。 
按 上 面 的 方法 编码 ， 最 终 节 省 了 6 个 二 进 制 位 。 下 面 通 过 下 表 来 进行 比较 。 


输出 : 
输入 
下 标 

二 进 制 位 





























对 数 直 接 进 行 编码 时 ， 共 需要 24 个 二 进 制 位 ， 而 对 下 标 编码 时 ， 只 需要 18 个 二 进 制 
位 ， 也 就 是 节省 了 大 约 25% 的 空 间 - 好 了 ， 现 在 我 们 已 经 知道 了 这 样 做 可 以 节省 空 
间 ， 但 是 SA 
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为 什么 这 样 做 能 节省 空间 

我 们 知道 ， 对 于 包含 和 个 整数 ， 
为 和 N 的 阶乘 ) 种 可 能 。 因 此 ， 第 
说 ， 去 掉 第 一 个 值 后 ， 就 只 剩 下 
本 全 ， 以 此 类 推 。 在 某 个 点 时 ， 


无 论 排 列 的 大 小 多 大 ， 这 种 方法 


解码 工作 则 以 相反 的 方式 进行 


(1) 一 共有 8 个 没有 赋值 的 元 素 ， 


从 数组 中 删除 。 





(4) 接 下 来 ， 请 按照 上 面 的 方法 解 


取 值 范围 为 0~N-l1 不 重复 的 全 排列 ， 一 共有 NI ( 称 
一 个 值 出 现 后 ， 我 们 就 知道 它 不 会 再 次 出 现 。 也 就 是 
(N-1)! 种 可 能 ;而 去 掉 第 二 个 值 后 ， 就 只 有 (V-2)! 种 
LOG(CV-BD 的 下 标 值 与 LOG(VD 的 下 标 值 之 差 就 





能 变 成 整数 。 因 此 ， 可 以 用 更 少 的 二 进 制 位 来 确定 还 剩 下 哪些 可 能 性 。 


都 过 用。 通过 这 种 方法 来 编码 ， 总 能 确保 最 终 所 产生 


的 数据 流 比 通过 灶 计 算 的 小 。 例 如 ， 如 果 你 遇 到 的 是 包含 从 0 到 65 535 这 些 整 数 的 一 
个 排列 ， 不 管 这 些 整 数 的 顺序 如 何 混乱 ,你 总 可 以 将 这 些 数据 压缩 到 原 空间 的 90%。 
实际 上 ， 只 节省 这 么 少 的 空间 通常 不 值得 我 们 这 样 去 做 。 

。 最 开始 时 ， 我 们 有 一 个 空 的 数组 ， 然 后 从 数据 流 中 读 
出 LOG2 (# 没 有 赋值 的 元 素 个 数 ) 个 二 进 制 位 ， 这 表示 的 是 该 元 素 的 下 标 ， 通 过 下 
标 我 们 就 知道 它 原来 所 代表 的 值 。 


具体 操作 如 下 。 
因此 从 输入 流 中 读 出 前 3 个 二 进 制 位 ， 这 里 是 101。 


(2) 二进制 101 对 应 的 值 为 5， 下 标 5 对 应 的 值 为 5， 因 此 第 一 个 数 是 5。 现 在 ,将 5 


(3) 还 有 7 个 没有 值 的 元 素 ， 我们 需要 读 取 接 下 来 的 LOG2(7) ( 即 3) 个 二 进 制 位 ， 其 
值 为 110， 对 应 的 十 进 制 下 标 为 6， 因 此 第 二 个 数 是 7。 


码 剩 下 的 元 素 。 








3.5 信息论 与 数据 压缩 


上 面 这 些 简单 的 例子 说 明 ， Ce 还 是 有 一 些 回 旋 的 空间 的 。 需 要 记 住 的 

















是 ， 糊 定义 的 只 是 在 对 数据 疲 进 








行 编码 时 ， 每 个 符号 平均 所 需 的 最 小 二 进 制 位 数 。 这 就 意 


味 着 ， 有 些 符号 需要 的 二 进 制 位 数 比 精 小 ， 而 有 些 符 吕 需 要 的 二 进 制 位 数 则 比 糯 大 。 


数据 压缩 算法 的 艺术 ， 就 在 于 真正 试图 去 突破 粮 的 限定 ， 或 者 说 是 将 数据 转换 成 一 种 灶 值 
更 小 的 、 新 的 表现 形式 。 这 可 以 说 是 真正 的 舞蹈 : 信息 论 已 经 制定 了 相应 的 规则 ， 数 据 压 
缩 则 以 斗牛 士 的 热情 巧妙 地 避 开 了 这 些 规则 。 








茉 爱 的 读者 ， 事 实 就 是 这 样 ， 这 也 是 这 本 书 的 全 部 内 容 : 怎样 应 用 数据 转换 以 创造 炉 更 小 
的 数据 流 (然后 再 用 适当 的 方法 进行 压缩 )。 理 解 信 息 论 与 数据 压缩 之 间 的 相互 作用 ， 将 























有 助 于 你 在 当今 这 个 信息 世界 更 全 鲁 


ij 地 看 待 这 两 者 之 间 的 相互 协调 与 让 步 。 




















柯 尔 莫 哥 洛 夫 复 杂 性 

正如 前 面 所 讨论 的 那样 ， 在 对 压缩 进行 评价 时 粒 不 是 一 个 好 指标 。” 
其 实 ， 还 存在 其 他 更 准确 的 度量 复杂 性 的 方法 ， 但 这 些 方法 在 使 用 上 还 没有 真正 地 标 
准 化 。 
柯 尔 莫 哥 洛 夫 复杂 性 (Kolmogorov complexity) ， 度 量 的 是 确定 一 个 对 象 所 需要 的 计算 
资源 。 它 以 数学 家 安 德 雷 " 柯 尔 莫 哥 洛 夫 (Andrey Kolmogorov) 的 名 字 命 名 ， 以 纪念 
他 在 1963 年 发 表 了 这 方面 的 第 一 篇 论文 。 
举 个 例子 ， 考 虑 以 下 两 个 由 32 个 小 写字 母 和 数字 组 成 的 字符 囊 : 

abababababababababababababababab 

4c1lj5Sb2pOcv4w1x8rx2y39umgw5q85s7 
可 以 写 一 个 简单 的 Python 程序 来 生成 第 一 个 字符 串 : 

<V= 'ab'* 16 > 
注意 ， 这 个 生成 字符 串 的 程序 要 比 字 符 事 本身 小 。 作 为 一 种 有 效 的 数据 压缩 方法 ， 你 
完全 可 以 把 这 段 程序 发 送 给 某 个 人 ， 然 后 让 他 运行 程序 重新 生成 源 字 符 串 。 
而 第 二 个 字符 串 没 有 什么 规律 ， 生 成 它 的 程序 要 比 源 字 符 串 大 。 因 此 ， 这 样 做 谈 不 上 
下 面 做 一 个 简单 的 总 结 。 
炉 ， 指 为 了 唯一 地 描述 一 段 数据 所 需要 做 出 的 “是 ”“ 否 ”回答 的 次 数 。 
柯 尔 莫 哥 洛 夫 复杂 性 ， 指 为 了 准确 地 生成 数据 ， 所 需要 的 生成 程序 的 大 小 。 
可 以 证 明 ， 任何 字符 串 的 柯 尔 莫 哥 洛 夫 复 杂 性 顶 多 比 字 符 串 本 身 的 长 度 大 几 个 字 节 
(基本 上 ， 也 就 是 一 个 程序 输出 字符 囊 的 每 个 元 素 )。 那 些 柯 尔 莫 哥 洛 夫 复 杂 性 要 比 字 
符 串 本 身 小 很 多 ， 就 像 上 面 的 所 举 的 abab 的 例子 ， 可 以 认为 这 样 的 字符 串 都 很 简单 。 
当 开始 讨论 用 逻辑 综合 (logic synthesis) 或 者 程序 综合 (program synthesis) 进行 数据 
压缩 的 时 候 ， 柯 尔 莫 哥 洛 夫 复杂 性 就 开始 真正 起 作用 了 ， 本 质 上 它 取 的 是 数据 集 以 及 
反 向 生成 产生 字符 串 的 程序 的 二 进 制 位 流 。 
平 心 而 论 ， 这 样 的 解释 有 些 大 而 化 之 。 灶 远 远 算 不 上 最 佳 解决 方法 ， 但 它 的 确 是 很 多 
人 信任 的 “足够 好 的 ”度量 标准 。 要 找到 一 个 更 准确 的 解决 方法 ， 涉 及 对 数据 信息 和 
分 析 空 间 的 大 量 随机 探索 。 这 里 ， 需 要 着 重 说 明 的 是 ， 虽 然 已 有 将 近 50 年 的 历史 ， 但 
是 数据 压缩 作为 一 个 学 科 仍 然 很 年 轻 。 不 是 所 有 的 问题 都 有 答案 ， 而 这 才 是 你 真正 需 
要 去 努力 探索 的 。 











E 13: 平 心 而 论 ， 只 考虑 统计 压缩 时 〈 见 第 4 章 ) ， 粒 还 不 失 为 一 个 好 的 标准 ， 但 是 在 接触 上 下 文 压 缩 方 
法 之 后 ， 你 肯定 想 把 它 扔 出 去 。 
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第 4 章 


VLL 








上 一 音 所 举 的 例子 说 明了 两 个 问题 : 一 是 可 以 通过 用 更 少 或 更 多 的 三 进 制 位 对 某 些 符号 编 
码 来 节省 所 需要 的 总 空间 ， 二 是 当 数据 集中 有 重复 符号 时 ， 这 个 方法 就 不 太 有 用 了 。 我 们 
必须 面 对 这 个 问题 ， 因 为 在 真实 的 数据 集中 ， 符 号 重复 几乎 无 法 避免 。 


这 就 是 为 什么 LOG2 方法 无 法 正确 地 表示 一 个 数据 集中 所 真正 包含 的 信息 内 容 。 本 章 将 向 
你 展示 怎样 利用 概率 和 重复 来 做 一 些 漂亮 的 工作 ， 最 终 产 生 让 人 印象 深刻 的 压缩 结果 。 


4.1 摩尔 斯 码 
在 讨论 真实 数据 的 传输 之 前 ， 让 我 们 先 回 到 电报 和 摩尔 斯 码 的 时 代 。 

从 1836 年 着 手 ，3 位 美国 人 画家 Samuel F. B. Morse、 物 理学 家 Joseph Henry 和 机 械 
师 Alfred Vail 一 一 共同 发 明了 第 一 套 电报 系统 。 这 套 系 统 通过 电线 来 发 送 电流 脉冲 "， 这 些 
脉冲 与 位 于 电报 系统 接收 端的 电磁 体 进行 交互 ， 产 生 了 可 以 昕 得 见 的 声音 ,或 者 人 们 在 发 
声 装 置 下 放 一 条 以 固定 速度 运行 的 纸 带 ， 纸 带 就 能 将 收 到 的 信号 记录 下 来 。 

电报 是 一 项 了 不 起 的 发 明 ， 因 为 它 可 以 远 距 离 地 传递 人 类 信息 。 慢 慢 地 ， 电 线 消失 了 ( 见 
图 4-1)， 它 最 终 演 变 成 了 人 们 口袋 中 的 移动 设 






























































注 1: 可 以 昕 一 下 这 个 示例 ，https:/www.youtube.com/watch?v = xsDk5_bktFo。 
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4-1: 1897 年 5 月 13 日， 在 弗 拉 特 霍 姆 岛 的 一 次 演示 中 ， 英 国 邮政 工程 师 们 在 检查 Guglielmo 
Marconi 的 无 线 电 报 设备 。 这 是 世界 上 第 一 次 跨 海 无 线 电 传 输 演示 ， 从 莱 弗 诺 克 角 到 弗 拉 特 
霍 姆 岛 ， 距 离 大 约 为 4.8 千 米 。 图 片 来 源 : 维基 百科 


有 了 设备 后 ， 发 明 者 遇 到 的 问题 就 是 如 何 表示 人 类 的 想法 ， 并 且 这 种 表示 方法 是 电流 信号 
能 传输 的 ， 比 如 说 用 语言 。 对 操作 人 员 来 说 ， 这 个 设备 本 身 的 操作 方法 很 简单 : 按 下 电报 
按钮 就 能 进行 连接 并 通过 电线 传输 电流 ， 松 开 按 钮 ， 电 流传 输 就 中 断 。 即 使 早 在 19 世纪 
二 进 制 编码 还 没有 发 明 时 ， 这 套 系 统 已 经 在 应 用 同样 的 思想 来 传递 信息 了 。 


或 许 ， 最 简单 的 编码 文本 信息 的 方法 ， 就 是 用 数字 1~26 来 编码 A~Z 的 英文 字母 。 这 样 ， 
我 们 就 能 通过 脉冲 的 次 数 和 组 合 来 确定 传送 的 是 哪个 数 。 例 如 ， 可 以 将 “THE HAT” 翻 译 
为 20-8-58-1-20。 实 际 上 ， 要 想 使 系统 能 真正 工作 ， 还 要 有 方法 来 区 分 单词 、 空 格 
和 标点 符号 ， 当 然 还 有 结束 符 (end-of-message) ， 但 通过 对 单词 进行 编码 ， 我 们 已 经 抓 住 
了 问题 的 实质 。 


不 过 ， 有 一 点 要 记 住 ， 那 就 是 所 有 这 些 信号 的 传输 都 需要 人 不 停 地 按 电报 设备 的 按钮 。 因 
此 ， 发 送 “THE HAT” 与 发 送 “FAT CAT” 或 “TIP TOP” 所 需要 的 人 工 操作 次 数 相 同 。 
如 果 一 个 邮政 局 每 天 要 发 100~200 封 平 均 50 个 词 的 电报 ， 这 件 事情 就 会 邻 人 抓 狂 。 显 然 ， 
这 是 因为 发 送 一 次 信息 所 需要 的 人 工 操作 次 数 太 多 。 物 理 硬 件 (发 报 机 设备 ) 和 人 工 硬件 
(也 就 是 操作 人 员 的 手腕 ) 的 磨损 比 预期 的 要 快 ， 解 决 方法 则 是 使 用 统计 来 减少 工作 量 。 














我 们 都 知道 ， 在 英语 中 有 一 些 字母 比 另 外 一 些 字 母 使 用 得 更 频 系 ， 比 如 字母 已 会 在 12% 
的 时 间 里 用 到 ， 而 字母 G 则 只 在 2% 的 时 间 里 用 到 。 如 果 操 作 人 员 每 天 发 送 的 字母 “E” 
更 多 ， 那 么 是 不 是 应 该 让 这 样 的 操作 变 得 更 快 、 更 简单 呢 ? 

最 终 ， 摩 尔 斯 码 被 发 明 出 来 。 

摩尔 斯 码 为 英语 字母 表 中 的 每 一 个 字符 都 分 配 了 或 长 或 短 的 脉冲 ， 一 个 字母 用 得 越 频 党 ， 
其 编码 也 就 越 得 、 越 简单 。 因 此 ， 英 语 中 最 常用 的 字母 “E” 的 编码 最 短 ， 用 一 个 点 表示 ， 
而 字母 “X” 的 编码 毫 无 疑问 则 很 长 ， 所 有 的 数字 都 用 5 个 脉冲 表示 。 图 4-2 显示 了 摩尔 
斯 码 的 原始 字符 集 。 
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图 4-2: 摩尔 斯 码 根据 各 个 符号 在 英语 中 出 现 的 概率 来 为 其 分 配点 和 划 。 一 个 符号 出 现 得 越 频繁 ， 其 
对 应 的 编码 就 越 短 。 这 张 图 是 摩尔 斯 码 的 一 个 早期 版 本 ， 由 电报 公司 专门 为 传输 较 小 的 信息 
集 而 设计 。 从 那 时 起 ， 摩 尔 斯 码 就 一 直 在 演变 ， 现 在 的 摩尔 斯 码 看 上 去 大 不 相同 了 





即使 是 追 斋 到 19 世纪 ， 这 也 是 对 符号 分 配 变 长 编码 (variable-length codes，VLC) 的 最 初 
实现 之 一 ， 其 目的 则 在 于 减少 传输 信息 过 程 中 所 需要 的 总 工作 量 。 

有 理由 相信 ， 在 早期 对 信息 论 的 研究 中 ， 克 劳 德 .香农 〈 他 是 摩尔 斯 码 方面 的 专家 ) 正 是 
利用 了 这 一 概念 ， 由 此 创造 了 一 个 新 的 技术 领域 “数据 压缩 ”的 第 一 代 技 术 ， 这 些 都 是 在 
VLC 的 局 发 下 产生 的 。 


< 一 一 
4.2 概率、 业 与 码 字 长 度 
为 了 进行 数据 压缩 ， 我 们 的 目的 很 简单 : 给 定 一 个 数据 集中 的 符号 ， 将 最 短 的 编码 分 配给 
最 可 能 出 现 的 符号 。 
不 过 我 们 还 是 暂时 先 退 回来 ， 看 一 看 焙 是 如 何 与 此 相关 的 。 假 定 一 个 大 的 数据 集中 只 
[A,B] 两 个 符号 ， 我 们 来 计算 一 下 每 个 符号 出 现 的 概率 (也 就 是 P(A) 和 P(B))， 并 看 一 看 
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概率 如 何 影响 数据 集 的 帆 。 下 表 展 示 了 不 同 的 样本 概率 与 对 应 的 数据 集 的 箭 。 





P(A) P(B) 数据 集 的 灯 
0.99 0.01 0.08 
0.9 0.1 0.47 
0.8 0.2 0.72 
0.7 03 0.88 
0.6 0.4 0.97 
0.5 0.5 1 
0.4 0.6 0.97 
0.3 0.7 0.88 
0.2 0.8 0.72 
0.1 0.9 0.47 
0.01 0.99 0.08 


观察 这 张 表 ， 可 以 马上 发 现 以 下 这 些 规律 。 











村 





当 P(A) == P(B)， 也 就 是 两 个 符号 等 可 能 出 现时 ， 数 据 集 对 应 的 炉 取 最 大 值 LOG2 ( 符 
号 的 个 数 ) ， 此 时 数据 集 很 难 压缩 。 


。 其 中 一 个 符号 出 现 的 可 能 越 大 ， 数 据 集 的 人 值 就 越 小 ， 此 时 数据 集 也 越 容易 压缩 。 
。 对 只 包含 两 个 符号 的 数据 集 来 说 ， 两 个 符号 互 换 概率 不 影响 其 炉 值 ， 我 们 可 以 看 到 
AH([0.9,0.1]) 等 于 H([0.1,0.9])。 


这 给 我 们 为 给 定 的 符号 分 配 VLC， 提 供 了 以 下 重要 的 启示 。 
首先 ， 随 着 数据 集 的 元 余 度 下 降 ， 它 的 炉 在 变 大 ， 其 最 大 值 为 数据 集中 不 同 符号 个 数 的 


LOG2 值 。 








例如 ， 如 下 表 所 示 ， 数 据 集中 有 4 个 以 相同 概率 出 现 的 符号 ， 其 粹 为 -4(0.251b(0.25)) = 2。 
也 就 是 说 ， 为 了 对 每 一 个 符号 进行 编码 ， 平 均 来 说 至 少 需要 2 个 二 进 制 位 。 











符号 概率 码 字 长 度 码 字 
A 0.25 2 个 二 进 制 位 00 
B 0.25 2 个 二 进 制 位 01 
C 0.25 2 个 二 进 制 位 10 
D 0.25 2 个 二 进 制 位 11 








妆 结 起 来 就 是 ， 如 果 一 个 数据 集中 包含 4 个 等 概率 出 现 的 符号 ， 那么 其 灶 为 2， 对 其 中 的 


池 
每 个 符号 进行 编码 都 需要 2 个 二 进 制 位 。 


其 次 ， 数 据 集中 一 个 符号 出 现 的 概率 越 大 ， 整 个 数据 集 的 粒 就 越 小 ， 数 据 集 也 就 越 容易 





压缩 。 








与 摩尔 斯 码 类 似 ， 我 们 可 以 通过 使 用 可 变 字 长 的 码 字 来 改善 这 种 情况 ， 将 最 短 的 码 字 分 配 
给 最 可 能 出 现 的 符号 。 因 此 ， 作 为 对 比 ， 我 们 来 考虑 下 表 中 包含 4 个 符号 且 符 号 呈 偏 态 分 
布 的 数据 集 ， 通 过 使 用 VLC， 其 炉 仅 为 1.57。 








符号 概率 码 字 长 度 码 字 ” 
A 0.49 1 个 二 进 制 位 0 
B 0.25 2 个 二 进 制 位 10 
CG 0.25 3 个 二 进 制 位 110 
D 0.01 3 个 二 进 制 位 111 











a 这 张 表 看 起 来 很 奇怪 ， 不 是 吗 ? 为 什么 不 能 用 码 字 [0,1,00,10] 来 对 [A,B,C,D] 进行 编码 呢 ? 这 是 因为 “前 级 
性 质 ” ， 这 是 解码 的 需要 ， 同 时 也 是 构造 编码 时 的 一 个 基本 要 求 。 不 要 着 急 ， 稍 后 会 讨论 这 一 性 质 。 

给 定 字符 串 AAABBCCD (可 将 其 看 成 一 个 更 大 的 数据 集 的 子 串 )， 假 定 每 个 符号 出 现 的 
概率 相同 ， 那 么 一 共 需 要 16 个 二 进 制 位 ， 如 果 符 号 出 现 的 概率 是 如 上 表 所 示 的 偏 态 分 布 ， 
那么 只 需要 13 个 二 进 制 位 就 可 以 完成 编码 工作 。 本 例 中 市 省 的 二 进 制 位 数 虽然 有 限 ， 但 
如 果 是 有 着 成 千 上 万 个 符号 的 真实 数据 集 ， 节 省 的 空间 就 相当 可 观 了 。 


通过 上 表 计 算出 来 的 帆 ， 同 样 也 支持 更 小 的 压缩 后 大 小 。 箭 约 为 1.57， 也 就 意味 着 ， 平 均 
来 说 ， 表 示 每 个 符号 所 需要 的 最 少 二 进 制 位 数 为 1.57。 

既然 实际 上 数据 流 中 的 二 进 制 位 数 不 可 能 是 小 数 ， 那 么 得 出 的 这 个 1.57 又 有 什么 意义 呢 ? 
需要 注意 的 是 ， 这 是 因为 我 们 所 举 的 例子 都 很 短 ， 包 含 的 总 字符 个 数 很 少 。 为 了 得 到 与 理 
论 计算 相 接 近 的 结果 ， 输 入 流 中 必须 要 包含 上 千 个 符号 。 


最 后 ， 码 字 的 长 度 与 符号 的 出 现 概率 密切 相关 ， 而 与 符号 本 身 没 有 太 大 关系 。 





















































我 们 拿 前 面 所 举 的 例子 来 说 明 这 个 问题 。 如 果 只 是 将 字母 A 和 字母 D 的 出 现 概 率 互 换 ， 
那么 码 字 的 总 长 度 不 会 改变 ， 只 是 字母 A 和 字母 D 的 码 字 长 度 会 互 换 ， 如 下 表 所 示 。 

















符号 概率 码 字 长 度 

A 0.01 3 个 二 进 制 位 
B 0.25 2 个 二 进 制 位 
C 0.25 3 个 二 进 制 位 
D 0.49 1 个 二 进 制 位 








4.3 VLC 


因此 ， 对 于 给 定 的 输入 数据 集 ， 可 先 计算 涉及 的 符号 的 出 现 概 率 ， 然 后 就 可 以 通过 VLC 
将 字 长 最 短 的 码 字 分 配给 最 可 能 出 现 的 符号 ， 从 而 实现 压缩 数据 。 这 真 不 错 ! 











当然 ， 这 里 还 存在 两 大 问题 没有 解决 。 第 一 ， 怎 样 在 应 用 程序 中 运用 VLC 来 进行 压缩 
呢 ? 第 二 ， 对 于 给 定 的 数据 集 ， 怎 样 构造 VLC 呢 ? 
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4.3.1 运用 VLC 

一 般 来 说 ， 对 数据 进行 VLC 通常 有 3 个 步骤 。 

(D 遍历 数据 集中 的 所 有 符号 并 计算 每 个 符号 的 出 现 概率 。 

(2) 根据 概率 为 每 个 符号 分 配 码 字 ， 一 个 符号 出 现 的 概率 越 大 ， 所 分 配 的 码 字 就 越 短 。 

(3) 再 次 遍历 数据 集 ， 对 每 一 个 符号 进行 编 双 ， 并 将 对 应 的 码 字 输出 到 压缩 后 的 数据 流 中 。 
下 面 来 对 每 一 个 步骤 进行 一 些 讲解 。 

1. 计算 符号 的 概率 

这 个 步骤 包括 画 出 数据 集中 所 有 符号 的 直方 图 。 也 就 是 说 ， 我 们 需要 遍历 数据 集 ， 并 计算 
出 每 个 符号 出 现 的 次 数 ， 最 终 得 到 如 图 4-3 所 示 的 直方 图 ， 该 图 描述 了 每 个 符号 与 其 出 现 
次 数 (或 者 说 频数 ) 之 间 的 对 应 关系 。 








TOBEORNOTTOBEORTOBEORNOT 














图 4-3: 一 个 示例 字符 串 与 其 对 应 的 直方 图 ， 该 直方 图 描述 了 每 个 字符 及 其 出 现 次 数 


2. 为 字符 分 配 码 字 

接 下 来 ， 根 据 出 现 的 频数 对 直方 图 进行 排序 〈 见 图 44)， 然 后 给 每 个 符号 分 配 一 个 VLC， 
从 VLC 集中 码 字 最 短 的 开始 。 其 结果 就 是 ， 一 个 字符 出 现 得 越 频繁 ,分 配给 它 的 码 字 就 
越 短 ， 如 此 就 实现 了 数据 压缩 。 


3. 编码 

用 VLC 的 方法 对 数据 流 中 的 字符 进行 编码 非常 简单 。 只 需要 从 数据 流 中 一 一 读 出 各 个 符 
号 ， 然 后 从 码 字 表 中 查找 出 当前 符号 所 对 应 的 码 字 ， 添 加 到 输出 流 中 ， 再 将 所 有 的 码 字 连 
接 起 来 ， 就 能 得 到 最 终 的 输出 流 。 

















处 理 完整 个 输入 流 之 后 ， 再 将 符号 码 字 对 应 表 添 加 到 输出 流 的 前 面 ， 如 图 4-5 所 示 ， 这 样 
解码 的 时 候 就 能 将 输出 流 恢 复 为 源 数据 。 
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图 4-4: 按照 字符 出 现 的 频数 对 直方 图 进行 排序 之 后 ， 我 们 就 能 为 字符 分 配 码 字 。 这 张 表 通常 也 被 称 
为 “ 码 字 表 ”(codeword table)。 注 意 ， 这 里 的 码 字 并 不 表示 标准 的 二 进 制 数 ， 这 是 编码 和 
解码 的 需要 (本 章 稍 后 会 讨论 这 一 内 容 ) 





输入 流 


输出 流 


1100011101 
一 -> 





..1101110T1 | 


编码 后 的 符号 流 











图 4-5: 该 图 展示 的 是 一 个 编码 示例 ， 从 输入 流 中 读 取 一 个 符号 ， 然 后 通过 符号 码 字 对 应 表 查 出 相应 
的 码 字 ， 再 将 码 字 添加 到 输出 流 中 。 所 有 的 符号 完成 编码 后 ， 还 要 将 符号 码 字 对 应 表 添 加 到 
输出 流 的 前 面 ， 以 方便 后 面 的 解码 
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举 个 例子 ， 要 使 用 刚 创 建 的 符号 码 字 对 应 表 对 “TOBEORNOT” 进 行 编 码 ， 第 一 个 字符 是 
“T”， 因 此 将 相应 的 码 字 00 添加 到 输出 流 ， 接 下 来 是 字符 “0”， 再 将 11 添加 到 输出 流 。 
如 此 反复 ， 最 终 得 到 “TOBEORNOT” 所 对 应 的 输出 流 为 001101110111010001011100， 共 
24 个 二 进 制 位 。 


与 72 个 二 进 制 位 的 源 数据 流 相 比 ( 即 使 平均 每 个 字符 只 用 3 个 二 进 制 位 )， 通 过 压缩 节省 
了 大 约 11% 的 空间 。 


4. 解码 
一 般 来 说 ， 解 码 是 编码 的 逆 过 程 。 如 图 4-6 所 示 ， 解 码 时 从 输入 流 中 读 取 二 进 制 位 ， 再 通 
过 符号 码 字 对 应 表 找 出 码 字 对 应 的 符号 ， 将 此 符号 添加 到 输出 流 中 。 


面 可 
| 


符号 码 字 对 应 表 
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解码 后 的 输出 流 








输入 流 


















图 4-6: 解码 是 编码 的 逆 过 程 ， 从 输入 流 中 读 取 二 进 制 位 (也 就 是 码 字 )， 青 通过 符号 码 字 对 应 表 找 
出 码 字 对 应 的 符号 ， 然 后 输出 这 些 符号 


不 过 ， 由 于 码 字 的 长 度 并 非 是 固定 的 ， 因 此 解码 过 程 还 是 稍微 有 些 复杂 。 一 般 而 言 ， 解 码 
的 时 候 ， 我 们 会 一 二 进 制 位 一 二 进 制 位 地 读 取 数据 ， 直 到 读 取 的 二 进 制 位 流 与 其 中 的 某 个 
人 码 字 相 匹配 。 一 旦 匹配 ， 就 会 输出 相应 的 符号 ， 并 继续 读 取 下 一 个 码 字 。 











我 们 来 看 看 上 一 个 例子 中 编码 后 所 形成 的 二 进 制 位 流 001101110111010001011100， 并 使 用 
前 述 的 符号 码 字 对 应 表 将 它 恢复 为 源 字符 串 ， 步 又 如 下 。 





(1) 读 取 0。 

(2) 对 照 符号 码 字 对 应 表 ， 没 有 长 为 1 个 二 进 制 位 的 码 字 。 

(3) 继续 读 取 ， 还 是 0。 对 照 符号 码 字 对 应 表 ，00 是 码 字 ， 输 出 对 应 的 符号 T。 
(4) 读 取 下 一 个 二 进 制 位 ， 即 1。 

(5) 继续 读 取 ， 还 是 1， 在 符号 码 字 对 应 表 找 到 码 字 11， 输 出 对 应 的 符号 O。 





现在 ， 有 意思 的 事情 出 现 了 。 


(1) 读 取 0， 再 读 取 下 一 个 二 进 制 位 1。 此 时 ， 我 们 发 现 对 应 表 中 有 多 个 匹配 ， 下 一 个 字符 
可 能 是 B、R 或 N。 因 此 ， 需 要 继续 读 取 第 3 个 二 进 制 位 ， 得 到 “011”。 现 在 ， 我 们 在 
表 中 找到 唯一 的 一 个 匹配 ， 字 母 B。 

(2) 按 本 书 的 惯例 ， 剩 下 二 进 制 位 的 解码 由 你 来 完成 。 当 读 到 二 进 制 位 流 的 最 后 一 位 时 ， 你 
应 该 已 经 恢复 了 源 字符 串 (可 以 参考 图 4-7)。 
































门 四 加 四 困 向 站 名品 
图 4.7 解码 示例 ， 从 输入 流 中 访 取 码 字 ， 再 通过 符号 码 字 对 应 表 找到 相应 的 符号 ， 最 后 将 符号 添加 
到 输出 流 中 











4.3.2 创建 VLC 

说 到 这 里 ， 我 们 想 花 一 点 时 间 指 出 摩尔 斯 码 的 一 个 细节 。 考 虑 用 摩尔 斯 码 “。。。 ”表示 的 
消息 ， 你 能 猜 出 它 是 什么 意思 吗 ? 

我 们 看 一 下 前 面 的 表 ，3 个 点 表示 的 好 像 是 字母 “S 。 

然而 ， 再 看 一 下 这 张 表 ， 它 表示 的 也 可 能 是 3 个 “E”( 即 一 个 点 表示 一 个 符号 )。 

由 操作 员 来 决定 某 个 电码 到 底 表示 什么 字符 ， 看 起 来 有 些 让 人 怀疑 。 事 实 上 ， 操 作 员 大 可 
以 利用 其 他 信息 来 决定 某 个 电码 到 底 表 示 什 么 字符 。 例 如 ， 在 19 世纪 , “eee” 几 乎 不 可 能 


表示 有 效 信息 ， 特 别 是 在 操作 员 知 道具 体 语 境 的 情况 下 (CATEEE 不 是 正确 的 英语 单词 ， 
但 CATS 是 )。 
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“手法 ”竞争 
从 技术 上 来 说 ， 现 实 中 发 报 员 可 以 通过 用 短暂 的 停顿 来 分 割 符 号 进行 “欺骗 "。 不 过 停 
顿 并 非 是 统一 的 ， 而 是 取决 于 发 报 员 的 操作 习惯 。 由 于 发 报 员 的 个 人 差异 而 造成 的 信 
号 持续 时 间 的 差异 ， 被 称 为 发 报 员 个 人 的 “手法 ” (fist) 。 每 个 发 报 员 的 “手法 ”都 不 
同 。 事 实 上 ， 经 验 丰 富 的 发 报 员 仅 任 手法 就 能 认 出 某 个 发 报 员 。 基 至 还 有 “好 手法 ” 
和 “ 坏 手 法 ”的 概念 ， 这 和 发 报 员 发 报时 信号 的 清晰 程度 有 关 。 











为 了 决定 消息 的 内 容 ， 操 作 员 需要 做 一 些 额 外 工作 ， 而 这 项 工作 在 数据 压缩 的 世界 中 不 能 
复制 。 这 是 因为 我 们 面 对 的 符号 只 有 0 和 1， 而 没有 空白 。 正 因为 如 此 ， 将 摩尔 斯 码 作为 
码 字 使 用 ， 甚 结果 并 不 理想 。 所 以 ， 我 们 需要 找到 一 种 能 将 0 和 1 放 在 一 起 ， 并 且 解 码 器 
能 生成 唯一 输出 流 的 方法 。 

前 缀 性 质 

因此 ， 在 任意 上 时刻， 解码 器 都 需要 能 确定 到 目前 为 止 所 读 取 的 二 进 制 位 ， 是 否 与 特定 字符 
的 码 字 相 匹配 ， 以 及 是 否 还 需要 继续 读 取 下 一 个 二 进 制 位 。 为 了 确保 正确 ， 在 设计 VLC 


集 的 码 字 时 ， 必 须 考虑 两 个 原则 : 一 是 越 频繁 出 现 的 符号 ， 其 对 应 的 码 字 越 短 ， 二 是 码 字 
需 满足 前 级 性 质 。 


我 们 先 看 看 一 个 潜在 的 VLC 是 怎样 月 溃 的 。 假 定 我 们 有 数据 流 0101111， 以 及 如 下 表 所 示 
的 VLC 对 应 表 。 






























































符号 码 字 

A 0 

B 10 

C 101 

D 111 
解码 过 程 如 下 所 示 。 





(1) 解码 器 读 取 0， 甚 对 应 的 字符 肯定 是 A， 因 此 将 A 输出 。 

(2) 解码 器 读 取 1， 它 可 能 是 字符 B、C 或 D 的 码 字 的 第 一 位 。 

(3) 解码 器 继续 读 取 0， 现 在 可 能 字符 的 范围 缩小 为 B 或 C。 

(4) 解码 器 继续 读 取 1， 这 里 我 们 遇 到 了 歧义 : 读 取 的 二 进 制 位 101， 应 该 解释 为 10+1 
(表示 的 是 B 与 另 一 个 字符 的 开始 ， 该 字符 可 以 是 B、C 或 者 D) 还 是 101 (表示 的 是 
字符 C) 呢 ? 
































此 时 ， 解 码 的 过 程 已 经 进行 不 下 去 了 ， 因 为 我 们 已 不 能 确定 读 取 的 二 进 制 位 到 底 表示 的 是 
什么 符号 。 如 图 4-8 所 示 ， 我 们 设计 的 码 字 已 经 让 我 们 无 法 区 分 不 同 的 符号 。 






































图 4-8: 如 果 一 个 码 字 是 另 一 个 码 字 的 前 级 ， 那 么 用 VLC 解码 二 进 制 流 就 会 很 难 
这 里 ， 我 们 提 到 了 VLC 的 前 缀 性 质 ， 它 的 意思 是 : 


在 某 个 码 字 被 分 配给 一 个 符号 之 后 ， 其 他 的 码 字 就 不 能 用 该 码 字 作为 前 级 。 














换 句 话说， 每 个 符号 都 能 通过 其 码 字 前 缀 唯一 地 确定 ， 只 有 这 样 ，VLC 才能 正常 工作 。 











前 组 性 质 是 VLC 能 正常 工作 所 必须 具有 的 性 质 。 这 也 就 意味 着 ， 与 二 进 制 
表示 相 比 ，VLC 要 更 长 一 些 。 

折 中 后 的 结果 是 ， 我 们 得 到 的 数据 流 会 更 长 (因而 也 更 大 )， 但 同时 也 能 在 
事先 不 知道 符号 长 度 的 情况 下 进行 解码 。 由 于 那些 常见 的 字符 对 应 的 码 字 很 
短 ， 因 此 对 那些 少数 儿 个 字符 出 现 频 率 特别 高 的 数据 流 而 言 ，VLC 的 压缩 率 
还 是 很 高 的 。 














4.3.3” 几 个 VLC 示 例 


本 节 将 介绍 一 些 曾 被 广泛 使 用 并 且 现 在 依然 发 挥 作用 的 VLC。 选 择 正确 的 VLC 方法 并 赋 
给 每 个 符号 正确 的 码 字 ， 则 是 另外 一 项 挑战 ， 稍 后 会 简要 讨论 这 个 问题 。 








这 些 VLC 是 怎样 构造 出 来 的 
可 以 说 这 些 编码 的 构造 过 程 满 含 着 血汗 和 眼泪 。 一 位 数学 家 板 莞 一 坐 十 年 冷 ， 最终 找 
到 了 一 种 将 整数 转换 为 VLC 的 独特 方法 。 这 种 编码 方法 一 般 称 为 通用 编码 (universal 
codes)， 大 致 来 说 ， 就 是 为 正 整 数 赋 上 一 个 长 度 可 变 的 二 进 制 码 字 。 通 常 来 说 ， 通 用 
编码 遵循 以 下 原则 : 数值 越 小 ， 其 对 应 的 码 字 也 越 短 ， 因 为 假定 小 整数 比 大 整数 出 现 
得 更 频 演 , 


这 些 VLC 方法 决定 了 用 不 同 的 方法 分 配 码 字 长 度 。 例 如 ， 有 一 种 方法 是 数值 每 加 1 其 
码 字 的 长 度 也 加 1， 所 以 1 对 应 的 码 字 长 为 1 个 二 进 制 位 ，2 对 应 的 码 字 长 为 2 个 二 进 
制 位 ，8 对 应 的 码 字 长 为 8 个 二 进 制 位 ， 以 此 类 推 。 也 有 相 邻 整数 之 间 三 字 的 二 进 制 
位 数 相差 很 大 的 ， 如 1 对 应 的 码 字 长 为 1 个 二 进 制 位 ，2 对 应 的 码 字 长 为 5 个 二 进 制 
位 ，8 对 应 的 码 字 长 为 12 个 二 进 制 位 。 
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这 是 因为 每 一 个 VLC 方案 都 对 符号 的 概率 分 布 有 特定 的 假定 。 如 果 第 N 个 符号 出 现 
的 概率 是 第 NHl 个 的 两 倍 多 ， 那 么 其 对 应 的 而 字 应 该 要 比 第 NHl 个 少 1 个 二 进 制 位 。 
然而 ， 如 果 第 N、N+1、N+2 和 N+3 个 符号 出 现 的 概率 基本 相同 ， 那 么 你 可 能 会 希望 
它们 对 应 的 码 字 长 度 相 等 。 因 此 ， 接 下 来 要 介绍 的 VLC 方案 都 与 某 个 理想 的 概率 分 布 
相对 应 ， 对 于 那些 与 某 个 理想 概率 分 布 比较 接近 的 数据 集 而 言 ， 选 择 对 应 的 编码 方案 
效果 会 更 好 。 


所 以 ， 对 于 接 下 来 要 讨论 的 大 多 数 VLC 方案 ， 我 们 会 列 出 其 相应 的 理想 概率 分 布 。 不 
过 要 注意 的 是 ， 虽 然 这 很 有 趣 但 并 非 必 须要 知道 ， 因 此 我 们 不 打算 详细 解释 。 


值得 指出 的 是 ， 通 用 编码 是 一 类 特殊 的 前 级 编码 。 还 有 其 他 类 型 的 VLC 方法 ， 比 如 唯 
一 可 译 码 (uniquely decodable codes) 与 非 奇 异 码 (nonsingular codes) ， 这 里 我 们 只 是 
简单 地 告诉 你 这 些 编码 方法 的 名 称 ， 不 再 展开 。( 本 书 中 也 不 会 使 用 这 些 术语 来 专门 讨 
论 这 些 编码 方法 ， 不 过 要 注意 的 是 ， 我 们 之 所 以 提 到 这 些 ， 是 因为 每 一 种 前 组 编码 都 
是 唯一 可 译 的 和 非 奇 异 的 。) 











. 二 进 制 编码 
第 2 章 介 绍 了 二 进 制 编码 ， 希 望 你 还 没有 完全 忘记 。 由 于 二 进 制 编码 在 计算 机 中 无 处 不 
在 ， 因 此 它 总 是 数据 压缩 的 最 终结 果 。 








继 Peter Elias 之 后 ， 人 们 总 是 习惯 用 B(n) 来 表示 整数 n 的 标准 二 进 制 表 示 。 这 种 表示 通常 
被 称 为 beta 编码 或 二 进 制 编码 ， 不 过 它 不 满足 前 级 性 质 。 例 如 ，2 的 二 进 制 表示 为 10， 同 
时 它 也 是 4 的 二 进 制 表示 100 的 前 组 。 





给 定 0~n 的 任意 整数 ， 我 们 都 能 用 1 + floor(lb(n)) 个 二 进 制 位 来 表示 。 也 就 是 说 ， 只 要 提 
前 知道 n 的 值 ， 我 们 就 能 通过 固定 长 度 表示 法 来 避 开 前 级 问题 。 换 句 话说 ， 如 果 知 道 有 多 
少 个 数 需 要 表示 ， 我 们 很 容易 算出 一 共 需 要 多 少 二 进 制 位 。 然 而 ， 如 果 不 能 提前 知道 数据 
集中 有 多 少 个 不 同 的 整数 ， 就 不 能 用 固定 长 度 表 示 法 。 











走 近 Peter Elias 


Peter Elias 教授 于 1923 年 11 月 23 日 生 于 美国 新 泽 西 州 新 不 伦 瑞 克 市 。 他 的 父亲 是 托 
马 斯 "A. 爱迪生 (Thomas A. Edison) 实验 室 里 的 一 位 工程 师 。 


Peter Elias 先 在 斯 沃 斯 莫 尔 学 院 上 了 两 年 学 ， 之 后 于 1942 年 转学 到 及 省 理工 学 院 。 
1944 年 ， 一 拿 到 商业 与 工程 管理 学 士 学 位 ， 他 就 应 征 加 入 美国 海军 ， 成 为 一 名 无 线 电 
技师 。1946 年 ， 他 以 电子 设备 技术 员 大 副 军 衔 退 役 。 之 后 ， 他 在 哈佛 大 学 取得 了 硕士 
(工程 科学 硕士 ) 和 博士 学 位 。 从 1953 年 到 1991 年 ， 他 一 直 在 麻 省 理工 学 院 任教 ， 在 
此 期 间 ， 他 获得 了 荣誉 称号 并 成 为 了 资深 讲师 。 











在 纠 错 码 方面 (不 过 本 书 并 没有 涉及 这 方面 的 内 容 ) ，Elias 是 一 位 真正 的 专家 。1955 
年 ， 他 就 引入 了 卷 积 码 (convolutional codes)， 作 为 分 组 码 (block codes) 的 一 种 替 
代 方 法 。 此 外 ， 他 还 建立 了 二 进 制 删除 信道 (binary erasure channel) ， 并 提出 了 用 纠 
错 码 的 列表 译 码 (list decoding of error-correcting codes) 来 代替 唯一 可 译 码 (unique 
decoding)。 如 果 想 在 晚餐 前 深入 地 阅读 ， 我 们 推荐 你 读 一 读 他 写 的 著作 。( 这 些 书 很 
有 趣 。) 











2. 一 元 码 
任意 正 整 数 n， 它 的 一 元 码 表示 都 是 n -1 个 1 后面 跟着 1 个 0， 例 如 ，4 的 一 元 码 表 示 为 
1110。 所 以 ， 很 容易 得 出 ， 整 数 n 的 一 元 码 长 度 也 是 n 个 二 进 制 位 。 














同样 ， 也 容易 看 出 一 元 码 满 足 前 级 性 质 ， 因 此 可 以 将 它 作 为 VLC 使 用 。 




















随 着 整数 n 加 1， 其 一 元 码 码 字 的 长 度 也 线性 地 加 1， 因 此 其 码 字 的 长 度 工 总 是 等 于 n。 而 
在 二 进 制 编码 中 ， 码 字 的 长 度 每 增加 1 个 二 进 制 位 ， 能 表示 的 整数 则 呈 指 数 级 增长 。( 还 
记得 前 面 所 示 的 2'、2 等 列 吗 ? ) 





因此 ， 将 一 元 码 应 用 在 那些 前 一 个 符号 的 出 现 概率 是 后 一 个 符号 2 倍 的 数据 集 上 ， 效 果 最 
佳 。( 也 就 是 说 ，A 的 出 现 概率 是 B 的 两 倍 ， 而 B 的 出 现 概 率 又 是 C 的 两 倍 。) 或 者 ， 如 
果 你 喜欢 数学 ， 我 们 可 以 说 ， 对 那些 包含 N 个 整数 的 数据 集 来 说 ， 如 果 每 个 整数 的 出 现 
概率 P(n) 服从 指数 分 布 2 "， 即 1/12、1/4、1/8、1/116、1/32， 其 他 以 此 类 推 , 我们 就 可 以 使 
用 一 元 码 进行 编码 。 





























` 面 展示 的 是 理想 概率 下 一 元 码 的 示例 。 




















数 编码 理想 概率 
0 (无 法 表示 ) 

1 0 0.5 

2 10 0.25 

8 110 0.125 

4 1110 0.0625 


解 一 元 码 时 ， 只 需要 从 输入 流 中 一 直 读 取 直 到 遇 到 分 隔 符 0， 然 后 数 一 下 1 的 个 数 再 加 上 
1， 最 后 将 这 个 值 输 出 就 可 以 了 。 


3. Elias gamma 编码 
Elias gamma 编码 主要 用 于 事先 无 法 确定 其 上 界 的 整数 的 编码 ， 也 就 是 说 ， 不 知道 最 大 的 


整数 会 是 多 大 。 














注 2: 值得 注意 的 是 ， 你 可 以 对 这 一 表示 取 反 ， 使 之 变 为 0001， 这 背后 的 思想 则 是 其 中 有 些 位 是 作为 值 来 
使 用 的 ， 有 些 位 则 被 当 作 分 隔 符 。 
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该 方法 最 主要 的 思想 是 不 再 对 整数 直接 编码 ， 而 是 用 其 数量 级 作为 前 绥 。 这 样 一 来 ， 相 应 
的 码 字 就 由 两 部 分 组 成 ， 即 与 此 整数 相当 的 2 的 次 需 再 加 上 余数 ， 编 码 方法 如 下 所 示 。 




















(1) 找 出 最 大 的 整数 N， 使 其 满足 2” <n< 2 ， 并且 将 nn 表示 为 n= 2"+L 这 样 的 形式 (这 
里 L=n 一 2”)。 

(2) 用 一 元 码 表 示 N。 

(3) 将 工 表示 为 长 为 NN 的 二 进 制 编码 ， 并 加 在 步 又 (2) 中 得 出 的 一 元 码 之 后 。( 这 一 步 很 重 
要 ， 正 是 有 了 这 样 的 对 称 性 ， 后 面 才能 顺利 解码 。) 


举 个 例子 ， 当 n= 12 时 ， 我 们 会 进行 如 下 的 编码 。 





(1) 由 于 2 =8， 而 2 =16， 同 时 2 <12<2， 因 此 的 值 等 于 3。 
(2) 根据 前 面 的 说 明 ， 可 以 算出 工 的 值 为 12-8=4。 

(3) N=3， 其 对 应 的 一 元 码 为 110。 

(4)L=4， 其 对 应 的 长 度 为 3 的 二 进 制 码 为 100。 

(5) 将 前 两 个 步骤 得 出 的 编码 连接 ， 就 得 到 了 最 终 的 输出 110100。 





























下 面 再 对 一 个 稍微 大 一 点 的 数 进 行 编码 ， 比 如 说 42。 


(1) 由 于 2 =32， 而 32<42<64， 因 此 N 的 值 等 于 $。 

(O) 工 的 值 则 等 于 42 -32 = 10。 

(3)N=5， 其 对 应 的 一 元 码 为 11110。 

(4) 工 =10， 其 对 应 的 长 度 为 5 的 二 进 制 码 为 01010。 

(5) 将 11110 和 01010 连接 ， 得 到 最 终 的 输出 1111001010。 














与 简单 的 一 元 编码 类 似 ，Elias gamma 编码 对 那些 整数 n 的 出 现 概 率 P(n) = 1/(27z2) 的 情形 
比较 适用 。 





下 表 展 示 了 一 些 Elias gamma 编码 的 例子 注意， 编码 中 的 工 部 分 用 斜体 表示 )。 


n 2 编码 

1 2°+0 。( 无 法 表示 ) 
2 2.+0 00 

8 2 +0 110000 

12 2°+4 110700 

42 2+10 1111007070 


解 Elias gamma 码 字 时 ， 方 法 也 很 简单 。 





(1) 以 12 为 例 ， 其 对 应 的 码 字 为 110700。 
C) 读 取 输 入 流 直 到 遇 到 分 隔 符 0， 因 此 读 取 的 值 为 1、1、0， 可 以 计算 出 N=3。 
(3) 读 取 剩 下 的 3 个 二 进 制 位 110， 并 将 其 从 二 进 制 转换 为 十 进 制 ， 由 此 得 出 艺 = 4。 
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(4) 将 两 部 分 相 加 ， 即 2*+L=2 +4=12。 
4. Elias delta 编码 


Elias delta 编码 则 是 另外 一 个 变种 。 在 这 一 方法 中 ，Elias 还 在 前 面 加 上 了 二 进 制 的 长 度 ， 





使 这 一 编码 稍微 复杂 一 些 。 





它 的 工作 原理 如 下 面 的 步骤 所 示 。 


(1) 将 要 编码 的 数 n 用 二 进 制 表 示 。 

Q2) 数 一 下 的 二 进 制 位 数 ， 并 将 这 个 位 数 转化 为 二 进 制 ， 作 为 C。 

(3) 去 掉 的 二 进 制 表示 的 最 左边 一 位 ， 这 个 值 肯定 是 1， 可 以 推断 出 来 。 
(4) 将 C 的 二 进 制 表示 加 在 去 掉 最 左边 一 位 后 的 的 二 进 制 表示 前 。 

(5) 在 上 一 步骤 所 得 的 结果 前 加 上 C 的 二 进 制 位 数 减 1 个 0 作为 最 终 的 编码 。 














下 面 还 以 12 为 例 ， 对 它 进 行 编码 。 


(1) 将 n= 12 表示 为 二 进 制 1100。 

(2)12 的 二 进 制 表示 共有 4 位， 将 4 表示 为 二 进 制 ， 即 C= 100。 
(3) 去 掉 n 的 二 进 制 表示 的 最 左 一 位 ， 得 到 100。 

(4) 将 C = 100 加 到 上 一 步骤 所 得 的 结果 之 前 ， 得 到 100100。 


(5) 将 C 的 二 进 制 位 数 减 1， 即 3-1 = 2， 在 上 一 步骤 所 得 的 结果 前 加 上 2 个 0， 由 此 得 到 


12 的 最 终 编码 为 00100100。 








对 那些 整数 n 的 出 现 概 率 P(n) 等 于 1/[2n(1b(2n))”] 的 数据 集 来 说 ，Elias delta 编码 是 理想 的 


选择 。 
下 表 展 示 了 一 些 Elias delta 编码 的 例子 。 








十 进 制 数 n” ”2"+L 编码 

1 2°+0 1 

9 2'+0 0100 

8 2°+0 00100000 
12 2°+4 00100100 
18 2 +2 001010010 


314 2°+58 000100100111010 





要 解码 Elias delta 编码 得 出 的 编码 ， 可 以 按照 下 面 的 步骤 进行 。 


(1) 读 取 并 数 0 的 个 数 ， 直 到 过 到 1。 

(2) 将 0 的 个 数 加 1， 由 此 得 到 C 的 长 度 。 

(3) 继续 读 取 C 的 长 度 个 二 进 制 位 ， 由 此 得 到 C。 

(4) 继续 读 取 C-1 个 二 进 制 位 ， 在 前 面 加 上 1 并 将 其 转 为 十 进 制 数 。 




















VLC 


以 前 面 得 到 的 00100100 为 例 进行 解码 。 


(1) 读 取 并 数 0 的 个 数 ， 直 到 遇 到 1， 这 里 有 2 个 0。 

(2) 加 1， 得 到 C 的 长 度 为 3。 

(3) 继续 读 取 3 个 二 进 制 位 ， 得 到 C = 100=4。 

(4) 继续 读 取 4 -1 即 3 个 二 进 制 位 ， 即 100， 在 其 前 面 加 上 1， 得 到 1100， 因 此 解码 的 结果 为 12。 





如 果 你 不 相信 这 一 方法 可 以 工作 ， 不 妨 用 数 314 为 例 先 编码 再 解码 ， 进 行 验证 。 


5. 其 他 编码 方法 
相信 通过 前 面 的 介绍 你 已 经 掌握 了 这 几 种 简单 的 VLC 算法 。 不 过 必须 要 指出 的 是 ， 在 过 去 的 
40 多 年 中 ， 人 们 创造 了 数 百 种 VLC 算法 ， 由 于 本 书 篇 幅 限制 ， 我 们 无 法 一 一 进行 介绍 。 





谷歌 的 Varint 算法 
而 和 


VLC 主要 存在 以 下 几 个 问题 ， 只 能 用 于 表示 压缩 数据 流 ， 没 有 其 他 应 用 。 


。 它们 不 按 字 节 / 字 / 整 型 对 齐 。 
。 对 于 大 的 数值 hn, 为 了 方便 解码 ,其 码 字 长 度 的 增长 速度 一 般 会 超过 Ib(n) 个 二 进 制 位 。 
。 解码 的 速度 很 慢 (每 次 只 能 读 取 一 个 二 进 制 位 )。 


对 那些 需要 处 理 很 多 大 整数 的 系统 来 说 ， 这 些 问 题 使 得 VLC 无 法 应 用 。 然 而 ， 在 21 
世纪 初 ， 出 现 了 一 个 新 的 可 变 长 度 整 数 模型 ， 在 搜索 引 掌 和 其 他 海量 数据 系统 中 得 到 
了 广泛 应 用 。 虽 然 它 是 以 谷歌 的 Varint 算法 而 流行 的 ， 但 其 中 最 基本 的 概念 早 在 1972 
年 就 提出 来 了 “， 并 在 2010 年 作为 “避免 压缩 整数 ” (escaping for compressed integers) 
而 被 重新 引入 。 


Varint 是 一 种 表示 整数 的 方法 ， 它 用 一 个 或 多 个 字 节 来 表示 一 个 整数 ， 数 值 越 小 用 的 
字 节 数 越 少 ， 数 值 越 大 用 的 字 节 数 越 多 。 

该 方法 将 几 个 字 节 连接 起 来 表示 整数 ， 并 用 每 个 字 节 的 MSB 作为 布尔 标志 ， 来 判断 
当前 的 字 节 是 否 为 该 整数 的 最 后 一 个 字 节 ; 而 每 个 字 节 的 低 7 位 则 用 来 存储 该 数 的 二 
进 制 补 码 (two’s complement representation) 。 下 面 就 来 看 一 些 例子 。 

整数 1 可 以 用 一 个 字 节 表示 ， 因 此 它 的 MSB 不 需要 设置 ， 可 表示 为 00000001。 

再 来 看 整数 300， 它 的 表示 则 要 复杂 一 些 : 10101100 00000010。 那 么 如 何 判断 它 表示 
的 是 300 呢 ? 

首先 ， 需 要 删 掉 每 个 字 节 的 MSB， 因 为 它 的 作用 只 是 判断 当前 字 节 是 否 是 最 后 一 个 字 
节 (正如 你 看 到 的 那样 ， 第 一 个 字 节 的 MSB 已 经 设置 为 1， 因 为 用 Varint 方法 来 表示 ， 
该 数 需要 多 个 字 节 )。 











注 3: 参见 L. Thiel 和 HH. Heaps 的 论文 Program Design for Retrospective Searches on Large Data Bases， 载 于 
Jnformation Storage and Retrieval，1972 年 第 8 卷 , 第 1 期 , 第 1~20 页 。 
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10101100 00000010 一 0101100 0000010。 

接着 ， 将 剩 下 的 两 个 7 二进制 位 的 数据 顺序 颠倒 一 下 ， 因 为 用 Varint 方 法 表示 时 ， 低 
位 的 字 节 在 前 。 最 后 ， 将 二 进 制 表示 转换 为 十 进 制 数 ， 就 得 到 了 最 终 的 数值 。 

Varint 表示 方法 结合 了 VLC 的 灵活 性 和 现代 计算 机 体系 结构 的 高 效率 ， 是 一 种 很 好 的 
混合 方法 。 它 既 允 许 我 们 表示 可 变 范围 内 的 整数 ， 同 时 还 对 自身 的 数据 进行 了 对 齐 以 
提高 解码 的 效率 ， 达 到 了 双赢 。 








4.3.4 为 数据 集 找到 最 适合 的 编码 方法 
前 面 介绍 的 各 种 编码 方法 的 最 大 区 别 是 ， 当 给 定 符号 的 概率 分 布 期 望 不 同时 ， 这 些 编码 广 
法 的 表现 也 不 同 。 








因此 ， 在 为 数据 集 选 择 一 种 VLC 编码 方法 时 ， 必 须要 先 芳 虑 数据 集 的 整体 大 小 和 数据 范 
围 ， 并 计算 各 个 符号 的 出 现 概率 。 如 有 果 不 这 样 做 ， 得 到 的 结果 可 能 就 是 ， 数 据 集 的 大 小 不 
日 没 有 压缩 ， 有 可 能 反而 比 原来 的 数据 集 还 大 。 















































为 了 让 你 了 解 每 种 编码 方法 最 终 的 结果 差异 ， 我 们 来 看 下 表 ， 它 展示 了 在 理想 的 概率 设 定 
下 ， 符 号 总 数 相同 时 使 用 不 同 的 方法 ， 每 个 符号 需要 用 多 少 二 进 制 位 来 表示 。 








每 Elias delta 编 码 Elias omega 编 码 ” 

符号 的 数量 “人 “一 “人 “理想 概率 为 ”需要 编码 的 最 大 值 事先 并 不 知道 ， 而 且 数 值 
个 符号 需要 的 一 进 制 位 1/2n(b(2m) 六 。 越 小 出 现 得 越 频繁 
数 ， 理 想 概率 为 1/(2n3) 





| 之 
和 2 3 4 3 
3 3 4 4 
8~15 7 8 6~7 
64~88 13 11 10 
100 13 11 11 
1000 19 16 16 


a 想 知 道 更 多 关于 Elias omega 方法 的 知识 ， 参 见 维 基 百 科 的 相应 网 页 。 


需要 记 住 的 内 容 如 下 

VLC 编码 方法 是 根据 某 个 数值 期 望 的 出 现 频率 来 为 该 值 分 配 码 字 的 。 因 此 ， 
每 种 VLC 编码 方法 ， 对 于 数据 集中 的 各 个 符号 如 何 分 布 ， 都 有 相应 的 其 
望 。 因 此 ， 为 数据 集 选择 适当 的 VLC 编码 方法 ， 关 键 在 于 使 VLC 背后 的 
概率 模型 与 该 数据 集 匹 配 。 如 果 偏 离 了 这 个 方向 ， 最 终 得 到 的 可 能 会 是 更 
大 的 数据 流 。 
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在 信息 论 发 展 的 最 初 15 年 左右 的 时 间 里 ， 数 据 压缩 技术 完全 局 限于 VLC 方法 。 总 的 来 
说 ,为 了 压缩 数据 ， 工程师 需要 做 的 就 是 找到 与 其 数据 集 匹 配 的 VLC 编码 方法 ， 并 加 以 
适当 应 用 。 





庆幸 的 是 ， 这 种 情况 已 经 一 去 不 复 返 了 。 
下 一 章 将 讨论 如 何 仅 使 用 便签 和 笔 就 能 生成 自己 的 VLC。 





第 5 章 


统计 编码 





5.1 利用 统计 使 数据 压缩 接近 灶 

从 输入 流 中 取 一 个 给 定 的 符号 ，VLC 方法 会 赋 给 它 一 个 位 数 可 变 的 码 字 。 当 我 们 将 此 方法 
应 用 到 一 个 足够 长 的 数据 集 上 时 ， 最 终 所 得 到 的 符号 平均 长 度 就 会 接近 整个 数据 集 的 灶 。 
当然 ， 前 提 是 数据 集中 符号 的 概率 分 布 与 使 用 VLC 方法 背后 的 概率 模型 相 匹配 。 








不 过 ， 还 是 要 澄清 一 个 事实 : 除了 少数 情形 外 ， 第 4 章 中 所 讨论 的 那些 VLC 方法 在 数据 
压缩 的 主流 领域 中 使 用 得 并 不 多 。 正 如 第 4 章 提 到 的 那样 ， 每 种 编码 方法 都 对 每 个 符号 的 
概率 分 布 做 了 不 同 的 假定 。 











考虑 一 下 实际 使 用 这 些 方法 时 所 需 面 对 的 问题 任意 给 定 一 个 数据 集 ， 需 要 找到 最 适合 
的 VLC 方法 对 其 编码 ， 这 样 最 终生 成 的 数据 流 中 的 符号 平均 长 度 才 会 接近 炳 的 大 小 。 不 过 ， 
如 果 选 错 了 编码 方法 ， 结 果 可 能 是 灾难 性 的 ， 压 缩 后 的 数据 流 的 大 小 其 至 会 比 原来 的 还 
要 大 | 

















因此 ， 我 们 必须 要 计算 数据 流 中 各 个 符号 出 现 的 概率 ， 然 后 再 与 所 有 已 知 的 VLC 方法 相 
比较 ， 以 便 从 中 找 出 与 数据 集中 符号 的 分 布 最 匹配 的 那 一 个 。 即 使 这 样 ， 还 是 存在 如 下 可 
能 : 需要 处 理 的 数据 集中 符号 的 概率 分 布 与 现 有 的 VLC 方法 都 不 能 完全 匹配 。 


那么 ， 应 该 怎么 办 呢 ? 答案 是 一 类 被 称 为 统计 编码 (statistical encoders) 的 算法 。 这 类 算 





注 1: 当然 ,一 旦 转换 后 的 输入 流 中 符号 出 现 概 率 变 为 已 知 ,现代 的 压缩 工具 就 可 以 明确 选择 一 种 VLC 方法 ， 
这 样 编码 器 与 解码 器 就 在 VLC 方法 上 达成 了 一 致 ， 问 题 也 就 解决 了 。 
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法 无 须 将 特定 的 整数 转换 为 特定 的 码 字 ， 而 是 通过 数据 集中 符号 的 出 现 概 率 来 确定 新 的 、 
唯一 的 变 长 码 字 。 最 终 的 结果 就 是 ， 给 定 任 何 输入 数据 ， 我 们 都 能 为 其 构造 出 一 套 自 定义 
的 码 字 集 ， 而 无 须 去 匹配 现 有 的 VLC 方法 。 











如 有 果 要 更 准确 地 描述 这 类 算法 ， 那 么 “统计 编码 算法 通过 数据 集中 符号 出 现 的 概率 来 进行 
编码 使 结果 尽 可 能 与 烂 接 近 ” 这 样 的 表述 可 能 很 合适 。 




















等 一 等 ， 它 是 否 应 该 被 称 为 “ 灶 编 码 ” 
值得 指出 的 是 ， 有 时 候 你 会 听 到 人 们 用 “ 粹 编码 ”来 描述 这 些 统计 类 型 的 压缩 算法 
(维基 百科 就 是 其 中 一 个 著名 的 例子 )。 


虽然 “ 炳 编码 ”这 个 术语 现在 是 “统计 编码 ”的 同义词 ， 但 历史 上 ， 这 个 术语 在 学 术 
界 的 使 用 很 混乱 ， 甚 至 存在 着 误 用 。 


粒 编 码 第 一 次 正式 出 现 可 能 是 在 ONeal 于 1967 年 发 表 的 一 篇 论文 中 ， 在 这 篇 文章 中 
有 这 样 一 句 话 : 


因此 ， 粒 编码 (也 可 以 称 为 “香农 一 范 诺 编 码 ” 或 “ 哈 夫 曼 编码 ”) 的 技术 有 
两 方面 的 用 途 ， 即 给 定 二 进 制 位 率 时 增加 信 骂 比 ， 或 者 给 定 信 骂 比 时 减少 二 
进 制 位 率 。 
1971 年 ，O'Neal 发 表 了 另外 一 篇 论文 ， 这 次 “ 粒 编 码 ” 出 现在 了 论文 题目 中 ， 而 论 
文正 文中 却 出 现 了 “ 粒 编 码 技 术 〈 哈 夫 曼 编码 或 香农 - 范 诺 编码 )”(entropy coding 
techniques) 这 样 的 复数 表述 。 然 而 遗憾 的 是 ， 这 篇 文章 没有 给 出 以 前 的 使 用 示例 或 者 
具体 的 定义 。 


ONeal 试图 将 所 有 运用 统计 方法 来 确定 VLC 的 编码 器 都 用 同一 个 术语 来 表示 (这 是 
有 意义 的 )， 但 从 来 没有 明确 表达 这 一 点 。1972 年 以 后 ， 就 有 很 多 论文 开始 包含 “ 粒 
编码 ”这 一 术语 ， 而 问题 是 ， 这 些 论文 的 作者 都 没有 按照 O'Neal 所 瞳 示 的 定义 那样 使 
用 这 一 术语 。 


例如 ， 国 际 电信 联盟 HH.82 建议 书 (ITU-T，1993) 将 粒 编 码 定 义 为 “任意 无 损 的 压 
缩 或 解压 数据 的 方法 "”。 这 是 一 个 糟 耘 的 定义 ， 因 为 这 样 一 来 ， 这 一 术语 就 能 用 来 
表示 LZ77 这 样 的 字典 编码 算法 (dictionary encoder， 本 书后 面 的 章节 会 讨论 这 方 
面 的 内 容 ) 。 


总 结 起 来 就 是 ， 炳 编码 似乎 不 是 一 个 定义 清楚 的 或 者 说 容易 区 分 的 概念 。 因 此 ， 为 了 
表述 清楚 起 见 ， 本 书 中 将 避免 使 用 这 一 概念 。 我 们 用 统计 编码 这 一 术语 来 定义 如 下 的 
算法 ， 该 算法 以 数据 流 中 符号 的 频率 为 依据 ， 为 该 数据 流 中 的 各 个 符号 分 配 长 度 可 变 
的 码 字 ， 从 而 使 最 终 的 输出 压缩 得 更 小 。 

注意 ， 有 很 多 人 会 不 加 区 分 地 混用 统计 编码 和 灶 编 码 这 两 个 术语 。 当 遇 到 这 种 情况 时 ， 
你 可 以 主动 纠正 他 们 ， 提 醒 他 们 炳 编码 这 一 术语 具有 模糊 性 (对 于 认真 的 书 贝 来 说 ， 
这 是 个 很 不 错 的 开场 白 ) 。 














48 | 第 5 章 


5.2” 哈 夫 曼 编码 


在 对 与 特定 分 布 模式 匹配 的 符号 出 现 概率 进行 大 量 讨论 之 后 ， 我 们 回 到 现实 中 来 ， 回 到 便 
签 上 。 如 果 在 你 完成 了 所 有 烦琐 的 计算 工作 之 后 ， 想 看 看 数据 流 中 符号 的 概率 分 布 是 否 与 
现 有 的 压缩 算法 相 匹 配 ， 结 果 发 现 能 与 很 多 种 匹配 上 ， 那 么 你 很 幸运 。 

















然而 如 果 没 有 匹配 上 ， 又 该 怎么 办 呢 ? 


答案 是 ， 此 时 你 需要 自己 去 构建 压缩 算法 。 对 于 给 定 的 数据 集 ， 为 了 产生 小 的 、 自 定义 的 
VLC， 你 需要 一 个 输入 是 概率 列表 、 输 出 是 码 字 的 算法 。 


下 面 介 绍 哈 夫 曼 编 码 。 

















哈 夫 曼 编码 可 能 是 生成 自 定义 VLC 最 直接 、 最 有 名 的 方法 。 给 定 一 组 符号 及 其 出 现 频率 ， 
该 方法 能 生成 一 组 符号 平均 长 度 最 短 的 VLC。 它 的 工作 原理 是 将 数据 排序 后 建立 决策 树 
(decision tree) ， 然 后 从 “树干 ”一 直 往 下 直到 “树叶 ”为 止 ， 并 记录 下 所 做 的 是 / 否 选 择 
(几乎 又 回 到 了 “20 个 问题 ”这 个 游戏 上 )。 这 里 所 说 的 “树叶 ”就 是 我 们 要 找 的 各 个 
符号 。 


























香农 一 范 诺 编码 
香农 一 范 诺 编 码 虽 然 在 大 多 数 的 现代 系统 中 没有 太 大 价值 ， 却 是 最 早 通 过 符号 及 其 出 
现 概率 来 生成 VLC 的 方法 之 一 。 其 价值 之 所 以 不 大 ， 是 因为 它 没有 达到 最 短 的 码 字 长 
度 预 期 ， 但 它 已 经 很 接近 了 。 这 一 方法 最 初 由 香农 于 1948 年 提出 ， 随 后 他 将 它 告 诉 了 
罗伯特 . 范 诺 (Robert Fano) ， 范 诺 后 来 将 它 作 为 技术 报告 正式 发 表 了 。 


举 一 个 应 用 的 例子 ，PKZIP/IMPLODE 格式 就 没有 使 用 哈 夫 曼 编 码 ， 而 是 使 用 了 两 到 
三 棵 看 农 一 范 诺 树 (Shannon-Fano tree)。 











5.2.1 构造 哈 夫 曼 树 


简单 来 说 ， 哈 夫 曼 发 现 如 果 使 用 二 又 树 ， 就 能 利用 符号 表 中 的 概率 与 二 又 树 的 分 支 来 创建 
优化 的 二 进 制 代码 。 


我 们 来 看 一 个 不 完整 的 小 符号 表 ， 如 下 表 所 示 。 


符号 出 现 的 频次 
A 4 
B 1 


| 
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先 将 符号 及 其 出 现 的 频次 写 在 便签 纸 上 ， 再 根据 频次 对 符号 进行 排序 ， 然 后 自 下 而 上 建 一 
棵 二 又 哈 夫 曼 树 ， 并 称 它 们 为 哈 夫 曼 树 的 叶子 (如 图 5-1 所 示 )。 




















图 5-1: 根据 出 现 频率 对 初始 结 点 进行 排序 


接 下 来 ， 选 择 出 现 频次 最 小 的 两 个 符号 ， 并 将 它们 往 下 移 一 层 ， 然 后 拿 出 新 的 便签 将 两 者 
合并 作为 它们 的 父 节 点 ， 上 面 写 上 两 个 符号 的 组 合 及 频次 相 加 之 和 ， 如 图 5-2 所 示 。 

















图 5-2: 合并 B 和 C 创建 一 个 父 节点 


然后 重复 上 述 过程 ， 再 合并 剩 下 的 A 结 点 和 BC 结 点 创建 一 个 新 的 根 节点 ABC， 这 样 它 就 
表示 了 完整 的 符号 集 ( 见 图 5-3)。 




















图 5-3: 合并 结 点 A 和 BC, 创建 以 ABC 为 根 节点 的 树 


5.2.2 ”生成 码 字 


如 前 所 述 ， 二 又 树 创建 好 了 ， 为 了 能 生成 码 字 ， 给 所 有 左 子 树 赋值 0， 为 所 有 右 子 树 赋值 1 
( 见 图 5-4)。 




















图 5-4: 为 左右 子 树 分 别 赋值 0 和 1 


最 后 ， 为 了 获得 给 定 符号 (叶子 节点 ) 的 码 字 ,需要 从 根 节点 “ 沿 着 树枝 ” 往 下 走 *”， 并 将 
所 得 的 1 和 0 按 从 MSB 到 LSB 排列 起 来 ， 也 就 是 从 左 排 到 右 。 


例如 ， 为 了 确定 符号 B 的 码 字 ， 从 根 节 点 开始 ， 向 右 遍 历 (得 到 1) ， 然 后 再 向 左 遍 历 (0)， 
这 样 得 到 的 10 就 是 B 的 码 字 ( 见 图 5-5)。 

















图 5-5: 遍历 树 以 获得 符号 B 的 码 字 

















为 了 得 到 其 他 剩余 符号 〈 叶 子 节点 ) 的 码 字 ， 只 要 重复 上 面 的 过 程 就 可 以 了 ( 见 图 5-6)。 


























图 5-6: 树 中 所 有 符号 (叶子 节点 ) 的 码 字 

















注 2: 这 里 我 们 抱 菊 地 承认 ， 这 样 说 不 完全 准确 。 传 统 的 哈 夫 曼 编 码 其 实 是 自 下 而 上 遍历 的 (与 香农 - 范 诺 
编码 自 上 而 下 遍历 刚好 相反 )。 不 过 对 于 程序 员 来 说 ， 实 际 上 自 上 而 下 人 遍历 的 代码 实现 会 更 高 效 ， 
为 这 样子 树 指针 的 保存 更 容易 ， 树 的 遍历 也 更 简单 。 
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5.2.3 ”编码 和 解码 

茶 喜 你 ! 现在 你 已 成 功 地 为 数据 集 构 造 了 VLC， 可 以 用 它们 进行 编码 了 。 只 要 遍历 输入 
流 ， 对 遇 到 的 每 一 个 符号 ， 写 下 其 对 应 的 码 字 作为 输出 就 可 以 了 。 

与 其 他 VLC 一 样 ， 为 了 解码 ， 也 需要 将 符号 码 字 对 应 表 与 压缩 后 的 内 容 放 在 一 起 传输 ， 
然后 再 按照 标准 的 VLC 的 解码 过 程 进行 解码 。 


由 于 创建 哈 夫 曼 树 ( 需 使 用 计算 资源 ) 要 比 传输 符号 码 字 对 应 表 (会 增加 数据 流 大 小 ) 困难 
得 多 ， 因 此 总 是 应 该 将 码 字 对 应 表 加 在 数据 流 的 前 面 ， 而 不 是 在 解码 时 再 重新 创建 一 次 ”。 





























es 











5.2.4 实际 的 实现 方法 

在 过 去 的 50 多 年 里 ， 人 们 已 经 对 哈 夫 曼 编 码 进 行 了 大 量 的 分 析 ， 不 但 产生 了 各 种 能 在 特 
定性 能 或 内 存 国 值 下 工作 的 变 体 ， 也 有 针对 特定 概率 分 布 的 各 种 变 体 。 关 于 哈 夫 曼 算法 及 
其 复杂 性 和 优化 方法 ， 已 经 出 版 了 不 少 图书 。 




















不 过 ， 要 说 的 也 只 有 这 么 多 了 ， 因 为 我 们 相信 当 你 试 着 去 使 用 这 些 算 法 时 ， 你 已 经 掌握 了 
足够 多 的 原理 知识 去 理解 数据 与 算法 如 何 交 互 。 




















走 近 哈 夫 曼 
戴 维 . 艾 伯 特 . 哈 夫 有 曼 (David Albert Hufftman，1925 年 8 月 9 日 一 1999 年 10 月 7 日 )， 
是 计算 机 科学 领域 的 一 位 先驱 ， 因 发 明 哈 夫 曼 编 码 而 闻名 于 世 “。 


1951 年 ， 哈 夫 曼 还 是 一 名 电气 工程 专业 的 研究 生 ， 在 信息 论 这 一 课程 的 结 课 考 核 中 ， 
他 和 同学 们 可 以 选择 写 学 期 论文 或 参加 期 末 考 试 。 教 这 门 课 的 教授 罗伯特 . 范 诺 布置 
了 一 个 年 看 似乎 很 简单 的 问题 作为 学 期 论文 : 要 求学 生 们 找 出 最 有 效 的 使 用 二 进 制 编 
码 表示 数字 、 字 符 以 及 其 他 符号 的 方法 。 除 作为 智力 训练 之 外 ， 如 果 能 找 出 这 样 的 编 
码 方 法 ， 也 将 使 得 对 通过 计算 机 网 络 传输 的 信息 或 计算 机 内 存 中 存储 的 内 容 进行 压缩 
成 为 可 能 。 

哈 夫 曼 研 究 了 这 个 问题 几 个 月 ， 也 想 出 了 几 种 方法 ， 但 无 法 证 明 哪 种 方法 最 有 效 。 最 
后 ， 他 对 找 出 解决 方法 绝望 了 ， 决 定 开始 学 习 准 备 期 末 考 试 。 就 在 他 准备 把 研究 笔记 
扔 到 垃圾 堆 的 时 候 ， 答 案 却 在 他 的 脑海 中 出 现 了 。“ 那 可 以 说 是 我 人 生 中 最 奇特 的 时 
候 ,” 哈 夫 曼 说 道 ,“ 突 然 有 灵光 闪现 。 























注 3: 在 本 书 的 末尾 , 我 们 会 回 到 如 何平 衡 数据 传输 与 计算 资源 这 一 话题 , 它 的 确 是 一 个 会 经 常 出 现 的 挑战 。 
注 4: 他 同时 也 是 折纸 数理 学 (mathematical origami) 这 一 领域 的 先驱 之 一 ， 如 果 你 想 了 解 这 一 领域 ， 可 以 
从 Robert Lang 的 TED 演讲 The Math and Magic of Origami 开始 探索 之 旅 。 

注 $: 出 自 Inna Pivkina 的 著作 Discovery of Huffinan Codes。 
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那 一 刻 的 顿悟 ， 让 哈 夫 曼 跻 身 于 众多 有 突出 贡献 的 工程 师 之 列 ( 相 比 而 言 ， 哈 夫 曼 是 
幸运 的 ， 我 们 都 知道 他 ， 而 很 多 这 样 的 工程 师 却 没有 留 下 名 字 )， 正 是 他 们 的 创新 性 思 
维 黄 定 了 各 种 现代 生活 设施 的 技术 基础 。 有 具体 到 哈 夫 曼 ， 这 些 现代 设施 包括 传真 机 、 
调制 解 调 器 以 及 无 数 其 他 设备 。“ 哈 夫 曼 编码 可 以 说 是 计算 机 科学 和 数据 通信 领域 内 人 
员 一 直 都 在 使 用 的 基本 思想 之 一 "， 斯 坦 福 大 学 教授 、 多 卷 本 著作 《计算 机 程序 设计 艺 
术 》 的 作者 高 德 纳 这 样 评价 道 。 


与 其 他 早期 的 重要 发 现 一 样 ， 如 果 没 有 老师 的 帮助 ( 范 诺 教 授 已 经 注意 到 克 劳 德 . 香 
农 也 在 努力 解决 同样 的 问题 )， 哈 夫 曼 可 能 永远 也 不 会 发 现 这 样 的 解决 方法 。“ 那 应 该 
说 是 我 的 幸运 ， 在 正确 的 时 间 去 研究 那个 问题 ， 并 且 我 的 老师 也 很 好 心 ， 没 有 告诉 我 
其 他 能 力 很 强 的 人 也 在 努力 解决 这 个 问题 而 使 我 灰心 。 哈 夫 曙 说道。 











5.3 ”算术 编码 


哈 夫 曼 编码 简单 、 高 效 ， 也 能 为 单个 的 数据 符号 生成 最 佳 的 码 字 。 然 而 ， 对 于 给 定 的 符号 
集 来 说 ， 它 并 非 总 是 生成 最 有 效 的 码 字 。 























事实 上 , 哈 夫 曼 编 码 能 生成 理想 VLC ( 即 码 字 的 平均 长 度 等 于 符号 集 的 炉 ) 的 唯一 情形 
是 ， 各 个 符号 的 出 现 概率 等 于 2 的 负 整 数 次 宕 〈 即 是 12、1/4 或 1/8 这 样 的 值 ) 。 这 是 因为 
哈 夫 曼 方法 会 为 给 定 符号 集中 的 每 个 符号 都 分 配 一 个 整数 二 进 制 位 长 的 码 字 。 

信息 论 告诉 我 们 ， 如 果 一 个 符号 的 出 现 概率 为 0.4， 那 么 它 最 理想 的 码 字 长 度 应 该 是 1.32 
个 二 进 制 位 ， 因 为 -lb(0.4) = 1.32。 而 哈 夫 曼 方 法 分 配给 这 个 符号 的 码 字 长 度 则 只 能 是 1 个 








进 制 位 或 2 个 二 进 制 位 。 


不 季 的 是 ， 只 要 分 配给 一 个 码 字 的 二 进 制 位 长 度 是 整数 ， 那 么 实际 编码 的 二 进 制 位 长 度 与 
根据 炉 计算 所 需要 的 二 进 制 位 长 度 之 间 的 差 值 就 会 比较 大 。 要 解决 这 个 问题 ， 我 们 必须 放 
弃 按 照 1 : 1 的 比例 为 每 个 符号 分 配 一 个 整数 二 进 制 位 长 码 字 的 方法 。 

这 正 是 算术 编码 发 挥 作用 的 地 方 ， 与 按照 1 : 1 的 比例 为 每 个 符号 分 配 一 个 码 字 不 同 ， 算 术 
编码 算法 会 将 整个 输入 流转 换 为 一 个 长 度 很 长 的 数值 ， 而 它 的 lb 表示 则 与 整个 输入 流 真正 
的 炉 值 很 接近 。 

算术 压缩 的 神奇 之 处 在 于 ， 它 将 转换 应 用 到 整个 源 数 据 上 以 生成 一 个 输出 值 ， 而 表示 这 个 
输出 值 所 需要 的 二 进 制 位 数 比 源 数据 本 身 少 。 
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故事 时 间 : 算术 编码 源 于 何 处 


早 在 20 世纪 60 年 代 初 ，Peter Elias 就 首先 提出 了 算术 压缩 背后 的 概念 〈 即 算术 编码 ) ， 
但 是 直到 10 年 以 后 ， 才 由 IBM 公司 的 Jorma Rissane 针对 其 实现 发 表 了 第 一 个 有 效 的 
研究 ， 随 之 而 来 的 还 有 相应 的 专利 。 


因此 ， 在 随后 的 几 十 年 里 ， 由 于 IBM 公司 采用 了 激进 的 专利 保护 战略 ， 算 术 压 缩 几乎 
从 算法 “地 图 ”上 消失 了 。 由 于 专利 的 问题 极 难 解决 ， 再 加 上 算术 压缩 又 非常 好 用 ， 
最 终 在 1979 年 人 们 又 发 明了 一 种 被 称 为 区 间 编 码 (Range Coding) 的 方法 。 它 所 做 的 
事情 与 算术 编码 基本 相同 ， 却 不 受 算 术 编 码 相 关 专 利 的 约束 。 

到 了 21 世纪 初 ， 算 术 编 码 的 专利 终于 到 期 了 。 算 术 压 缩 的 方法 再 次 迎 来 了 春天 ， 并 且 
赢得 了 统计 编码 当前 阶段 标准 算法 的 地 位 。 

事实 上 ， 现 代 主 流 的 文件 、 音 频 和 视频 的 压缩 格式 (如 LZMA 和 BZIP 这 样 的 文件 格 
式 ，JPEG、WebP、WebM 和 H.264 这 样 的 音 视频 格式 ) ， 在 统计 编码 步骤 上 都 会 使 用 
算术 编码 压缩 方法 。 








5.3.1 找 出 正确 的 数 

算术 编码 的 工作 原理 是 将 字符 串 转 换 为 一 个 数 ， 与 字符 串 相 比 ， 表 示 这 个 数 需 要 的 
二 进 制 位 数 要 少 一 些 。 例 如 ， 字 符 串 “TOBEORNOT” 可 以 用 数 236 712 “来 表示 ， 而 
ceil(lb(236 712)) = 18， 即 只 需要 18 个 二 进 制 位 就 能 表示 。 相 比 而 言 ， 如 果 用 ASCII 码 来 
表示 “TOBEORNOT”， 则 需要 56 个 二 进 制 位 。 


不 过 ， 事 情 并 不 像 前 面 举 的 例子 那样 简单 ， 随 机 挑选 一 个 数 就 可 以 了 。 相 反 ， 算 术 编 码 会 


根据 输入 流 ， 通 过 一 系列 复杂 的 步 又 计算 出 那个 数 。 选 择 这 个 数 的 诀 宿 ， 实 际 上 是 对 第 2 
章 介绍 的 二 分 查找 算法 进行 了 改进 (你 知道 的 ， 第 2 章 是 不 容错 过 的 一 章 )。 








不 妨 回 忆 一 下 第 2 章 ， 在 判断 某 个 数 是 比 中 枢 值 大 还 是 小 时 ( 即 需要 从 左右 2 个 空格 中 选 
择 一 个 )， 我 们 可 以 通过 二 分 查找 输出 的 0/1 记录 查找 过 程 中 所 做 的 否 /是 决定 。 然 而 ， 如 
果 需 要 从 4 个 空格 中 选择 呢 ? 那么 ， 我 们 所 做 的 每 个 决定 都 将 输出 2 个 二 进 制 位 〈 即 结果 
的 4 种 可 能 取 值 分 别 表示 数值 范围 的 四 分 之 一 )。 这 还 是 很 有 道理 吧 ? 























算术 编码 也 是 同样 的 工作 思路 ， 但 同时 也 有 一 些 重要 的 改进 。 














算术 编码 首先 会 创建 [0,1) "这 样 的 数值 区 间 ， 然 后 再 通过 数据 流 中 符号 出 现 的 概率 对 这 一 
区 间 进 行 细 分 。 比 如 说 ， 如 果 A 出 现 的 概率 为 25%， 那 么 为 A 分配 的 区 间 就 是 [0,0.25)， 























注 6: 事实 上 并 不 是 236 712 这 个 数 ， 这 里 只 是 随便 举 个 例子 来 展示 一 般 的 步骤 。 
注 7: [0,1) 这 样 的 区 间 记 法 ,包含 0 在 内 而 将 1 排除 在 外 ,使 得 这 个 区 间 包 含 从 0~0.999 99.… 的 所 有 数值 (这 
里 ，9 的 个 数 可 以 取 任 意 大 ) 。 
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邮 


B 出 现 的 概率 为 10%， 那 么 B 对 应 的 区 间 则 为 [0.25,0.35)， 以 此 类 推 ， 如 下 图 所 示 。 








0.0 0.25 0.35 0.55 1.0 














当 编 码 器 读 取 一 个 符号 时 ， 它 就 会 找到 这 个 符号 对 应 的 区 间 。 例 如 ， 如 果 读 取 字 符 A， 那 
么 用 到 的 区 间 就 是 [0.0,0.25)。 在 读 取 一 个 符号 以 后 ， 编 码 器 将 继续 细 分 这 个 取 值 区 间 ， 并 
按 符 号 的 出 现 比 例 进 行 细 分 。 








例如 ， 如 果 遇 到 的 输入 流 中 有 3 个 A， 那么 编码 器 将 对 A 的 取 值 区 间 细 分 3 次 ， 如 下 图 
所 示 。 
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总 的 来 说 ， 每 个 符号 都 会 以 递归 的 方式 再 次 细 分 取 值 区 间 直 到 读 完 整个 输入 流 为 止 。 之 
后 ， 就 得 到 最 终 的 取 值 区 间 ， 比 如 [0.253 212,0.254 21)。 而 最 终 输 出 的 数值 ， 也 在 这 一 取 
值 区 间 内 。 例 如 ， 上 面 所 举 的 输入 为 AAA 的 例子 ， 其 最 终 输出 值 就 在 [0,0.015 625) 这 个 
区 间 之 内 。 























5.3.2 编码 

下 面 举 一 个 完整 的 编码 例子 ， 假 定 有 3 个 字符 R、G 和 B, 其 出 现 概率 分 别 是 0.4、0.5 和 
0.1。 根 据 这 3 个 字符 的 出 现 概率 ， 我 们 在 [0,1) 范围 内 为 它们 分 配 了 相应 的 取 值 区 间 ， 如 
下 表 所 示 (注意 ， 这 个 表 对 应 的 炉 值 为 1.36)。 





























符号 概率 取 值 区 间 
R 0.4 [0,0.4) 
G 0.5 [0.4,0.9) 
B 0.1 [0.9,1) 


下 图 展示 了 同样 的 信息 ， 只 不 过 使 用 了 数 轴 线 这 样 的 方式 来 表示 字符 R、G 和 B。 
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使 用 这 样 的 概率 设 定 ， 对 字符 串 “GGB ”编码 。 














从 输入 流 中 读 到 的 第 一 个 字符 为 G， 根 据 上 表 可 以 知道 G 的 取 值 区 间 为 [0.4,0.9)。 因 此 ， 
需要 按 3 个 字符 的 出 现 概率 对 [0.4,0.9) 这 一 区 间 进 行 再 次 细 分 ， 得 到 3 个 符号 的 新 取 值 区 
间 ， 如 下 色 及 下 表 所 示 。 



































符号 概率 更 新 后 的 取 值 区 间 





R 0.4 [0.4,0.6) 
G 0.5 [0.6,0.85) 
B 0.1 [0.85,0.9) 























接着 从 输入 流 中 读 取 第 二 个 字符 ,还 是 G， 因 此 需要 继续 细 分 G 的 取 值 区 间 ， 此 时 其 范围 
为 0.6~0.85， 并 再 次 根据 概率 更 新 各 个 符号 的 取 值 区 间 ， 如 下 图 及 下 表 所 示 。 








0.0 0.4 0.9 1.0 


06 07 0.825 0.85 











符号 概率 更 新 后 的 取 值 区 间 
R 0.4 [0.6,0.7) 

G 0.5 [0.7,0.825) 

B 0.1 [0.825,0.85) 











读 取 第 三 个 字符 B， 再 次 细 分 其 取 值 区 间 ， 并 更 新 相应 的 图 和 表 。 














0.6 07 0.825 0.85 
i 


0.825 0.85 


昌 











符号 概率 更 新 后 的 取 值 区 间 





R 0.4 [0.825,0.835) 
G 0.5 [0.835,0.8475) 
B 0.1 [0.8475,0.85) 


恭喜 你 ! 你 成 功 地 用 算术 方法 对 一 个 输入 流 进行 了 编码 。 


5.3.3 选择 正确 的 输出 值 


至 此 ， 细 分 完了 取 值 区 间 ， 但 要 输出 什么 值 作为 最 终 的 结果 呢 ? 

















在 上 面 所 举 的 例子 中 ，B 的 最 终 取 值 区 间 是 [0.825,0.85)， 在 此 区 间 内 的 任何 数值 都 能 让 我 
们 重新 构建 出 原来 的 字符 串 ， 因 此 可 以 从 中 任 取 一 值 。 由 于 本 书 讨论 的 是 数据 压缩 ， 因 此 
我 们 将 尽 可 能 选择 可 以 用 最 少 的 二 进 制 位 来 表示 的 数值 (因而 也 尽 可 能 与 1.36 个 二 进 制 位 
这 个 粹 目标 接近 )。 


在 这 个 取 值 范围 内 需要 最 少 二 进 制 位 表示 的 数 是 0.83。 









































最 后 ， 由 于 解码 器 事先 “知道 ”这 个 数 肯 定 是 一 个 小 数 ， 因 此 可 以 去 掉 小 数 点 以 节省 空 
间 ， 将 最 终 的 值 确定 为 83。 由 于 1b(83) =7， 因 此 平均 每 个 字符 占用 2.33 个 二 进 制 位 。 














5.3.4 解码 
从 最 终 输 出 值 解码 非常 简单 ， 基 本 是 编码 的 逆 过 程 。 与 编码 相同 ， 我 们 也 会 在 [0,1) 根据 
字符 的 出 现 概 率 等 比例 地 创建 取 值 区 间 ， 如 下 图 所 示 。 
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EE 




















当 拿 到 输入 值 83 后 ,移动 小 数 点 将 其 变 成 小 数 0.83， 这 样 就 能 看 出 它 落 在 哪个 区 间 内 ， 
然后 再 将 与 此 区 间 相 关联 的 符号 输出 。 








具体 到 本 例 中 ，0.83 处 在 0.4~0.9， 因 此 首先 输出 字符 G。 





然后 ， 再 根据 各 符号 的 概率 分 布 (与 编码 时 相同 ) 将 G 的 取 值 区 间 细 分 ， 如 下 图 所 示 。 























为 了 得 到 第 二 个 符号 ， 需 要 重复 这 个 过 程 。 现 在 输入 值 仍然 是 0.83 ， 再 次 落 在 G 的 取 值 区 
间 内 ， 因 此 输出 第 二 个 G， 并 再 次 对 G 所 在 的 区 间 进 行 细 分 ， 如 下 图 所 示 。 
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继续 这 个 过 程 ，0.83 处 在 0.825~0.85， 这 是 符号 B 的 取 值 区 间 ， 因 此 接着 输出 B， 如 下 
所 示 。 





WN 


























这 样 就 得 到 了 最 终 解码 后 的 输出 流 GGB。 











怎么 样 ? 结果 很 漂亮 吧 。 整 个 解码 的 过 程 ， 基 本 上 就 是 在 递归 的 区 间 内 画 线 ， 然 后 再 输出 
i te 

















怎样 在 数据 压缩 中 根据 概率 分 布 细 分 取 值 区 间 


不 妨 以 将 区 间 [0,1) 均 分 为 10 等 份 作为 初始 状态 ， 这 其 实 与 输入 流 中 所 有 的 字符 都 以 
相同 的 概率 0.1 出 现 等 价 ， 如 下 图 所 示 。 


EE 


接着 ， 读 取 一 个 字符 ， 并 将 区 间 [0.2,0.3) 再 次 分 成 10 等 份 ， 如 下 图 所 示 。 


Eo 

























现在 ， 暂 停 一 下 。 我 们 已 经 读 取 了 一 个 字符 ， 如 果 此 时 停止 编码 的 话 ， 就 会 选择 一 个 
0.2X 范围 内 的 数 作为 输出 ， 它 会 有 两 位 小 数 。 

随 着 这 种 模式 的 继续 ， 每 细 分 一 次 ， 最 终 输 出 的 数 就 会 增加 一 位 小 数 。 因 此 ， 经 过 三 
次 细 分 会 得 到 0.XXX 这 样 的 数 ， 经 过 四 次 则 会 得 到 0.XXXX 这 样 的 数 ， 如 下 图 所 示 。 
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0.247 0.2471 0.2472 | 0.2473 | 0.2474 | 0.2475 | 0.2476 | 0.2477 | 0.2478 | 0.2479 


这 里 的 问题 是 ， 由 于 每 细 分 一 次 输出 的 结果 就 会 增加 一 位 小 数 ， 因 此 最 后 的 结果 是 
每 读 取 一 个 字符 输出 结果 就 会 增加 一 位 小 数 。 








然而 即使 这 样 ， 还 是 能 达到 压缩 的 目的 。 例 如 ， 如 果 读 取 的 是 用 ASCII 码 表示 的 数 
据 ， 那 么 每 个 a te et Erte 
大 约 3.3 个 二 进 制 位 (因为 每 一 步 都 是 以 10 的 次 畦 形式 在 增加 的 ) 。 


过 ， 我 们 可 以 做 得 更 好 。 


可 以 不 等 分 区 间 ， 而 是 让 某 些 区 间 的 范围 更 大 。 例 如 ， 可 以 让 第 一 个 区 间 的 范围 为 
[0,0.91)， 而 其 他 9 个 区 间 则 在 [0.91,1) 内 。 其 实 ， 这 与 输入 流 中 某 一 个 符号 出 现 的 概 
率 比 其 他 9 个 符号 大 得 多 的 情况 等 价 ， 如 下 图 所 示 。 








EDEN 














读 取 第 一 个 符号 之 后 ， 按 同样 的 权重 继续 细 分 [0.0,0.91)， 如 下 图 所 示 。 

















www 






a | 0.901 0.902 0.903 0.905 0.906 0.907 0.909 


此 时 ， 如 果 停 止 编 码 ， 那 么 输出 就 可 能 是 一 位 数 “0” 或 者 三 位 数 “90X 。 而 如 果 将 
个 位 数 赋 给 最 可 能 出 现 的 字符 ， 就 又 节省 了 大 量 的 空间 。 























提高 解码 性 能 
值得 指出 的 是 ， 对 关注 性 能 的 人 来 说 ， 上 面 用 图 例 说 明 的 解码 过 程 可 能 并 没有 你 希望 
的 那么 高 性 能 。 如 果 遇 到 1 MB 大 小 的 数据 流 ， 那 么 每 次 都 需要 将 取 值 区 间 再 细 分 为 
不 同 的 符号 数 那 么 多 份 ， 如 此 一 来 则 涉及 很 多 的 浮 点 数 乘 除 运算 。 
还 有 一 个 替代 的 方法 ， 就 是 不 再 细 分 区 间 ， 因 而 可 以 将 与 区 间 相 关 的 影响 从 代码 中 
移 除 。 


例如 前 面 所 举 的 例子 ， 其 最 终 输 出 值 为 83， 而 根据 频率 与 区 间 表 ， 可 以 创建 如 下 的 数 
值 区 间 图 。 





0.0 0.4 0.9 1.0 








解码 时 ， 输 入 值 是 0.83, 位 于 0.4~0.9， 因 此 可 以 得 到 第 一 个 输出 符号 G。 


不 过 ， 现 在 需要 消除 第 一 个 符号 G 对 相关 数值 的 影响 。 用 输入 值 减 去 G 取 值 的 下 限 
( 即 0.4)， 再 除 以 G 的 取 值 区 间 的 长 度 ( 即 0.5)， 其 结果 为 0.86， 计 算 过 程 如 下 所 示 : 


(0.83—0.4)/0.5=0.86 


继续 解码 ，0.86 位 于 0.4~0.9， 因 此 下 一 个 输出 符号 还 是 G。 与 前 面相 同 ， 需 要 再 次 消 
除 第 二 个 符号 G 对 相关 数值 的 影响 ， 用 0.86 减 去 G 取 值 的 下 限 ( 即 0.4) ， 再 除 以 G 
的 取 值 区 间 的 长 度 ( 即 0.5)， 其 结果 为 0.92。 


(0.86-0.4)/0.5=0.92 
而 0.92 位 于 0.9~1.0， 由 此 得 到 第 三 个 符号 B。 
将 第 三 个 符号 输出 ， 就 完成 了 整个 解码 的 过 程 。 
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5.3.5 ”具体 实现 

21 世纪 初 算术 编码 的 专利 到 期 之 后 ， 算 术 编 码 得 到 了 大 量 的 使 用 ， 并 变 得 流行 起 来 ， 同 时 
也 产生 了 大 量 与 其 具体 实现 相关 的 话题 。 让 人 印象 深 刻 的 是 ， 人 们 对 不 少 实现 方法 进行 了 
修改 以 适应 特定 的 编码 解码 器 ， 如 JPG 和 H.264 编码 解码 器 所 使 用 的 二 进 制版 本 (binary- 
only versions) 。 虽 然 这 些 有 损 压 缩 方法 不 在 本 书 的 讨论 范围 内 ， 但 如 果 你 想 了 解 更 多 的 话 ， 


参见 文章 Practical Implementations of Arithmetic Coding。 




















5.4 ANS 


在 哈 夫 曼 编 码 与 算术 编码 进行 了 将 近 40 年 的 较量 之 后 ， 这 两 种 方法 似乎 都 要 被 一 种 全 新 
的 统计 编码 算法 替代 。 


2007 年 ，Jarek Duda 引入 了 一 种 新 的 与 数据 压缩 有 直接 关联 的 信息 论 概念 ， 非 对 称 数 字 系 
统 (asymmetric numeral systems，ANS)。 实 际 上 ，ANS 是 一 种 新 的 精确 炉 编码 方法 ， 所 
得 到 的 结果 可 以 和 最 优 炉 任 意 接 近 ， 它 的 压缩 率 与 算术 编码 接近 ， 而 性 能 则 与 哈 夫 曼 编 码 
相当 。 








虽然 Jarek Duda 的 论文 详细 说 明了 很 多 很 酷 的 数学 发 现 ， 但 实际 上 我 们 可 以 像 使 用 其 他 统 
计 编 码 算法 那样 使 用 这 一 算法 “。 

(1) 根据 符号 的 出 现 频率 对 数值 区 间 进 行 细 分 。 

(2) 创建 一 张 表 ， 将 子 区 间 与 离散 的 整数 值 关联 起 来 。 

(3) 每 个 符号 都 是 通过 读 取 和 响应 表 中 的 数值 来 处 理 的 。 

(4) 向 输出 流 中 写 入 可 变 的 二 进 制 位 位 数 。 

这 一 算法 独 有 的 两 个 部 分 在 第 (2) 步子 区 间 与 整数 值 关联 的 表 ) 和 第 (4) 步 (可 变 的 二 进 
制 位 位 数 ) 中 。 

外来 好 好 地 看 一 看 。 

















下 


5.4.1 通过 转换 表 来 编码 和 解码 


tANS 是 ANS 的 一 种 变 体 ， 它 是 围绕 着 一 张 表格 工作 的 。 
我 们 来 看 一 个 例子 ,假定 有 下 表 。 和 暂且 忽略 这 张 表 是 如 何 创 建 的 ， 稍 后 会 讨论 这 个 问题 。 


























注 8: 特别 是 tANS 变 体 ， 它 的 设计 目标 就 是 要 直接 替代 哈 夫 曼 编 码 ， 参 见 论 文 The Use of Asymmetric Numeral 
Systems as an Accurate Replacement for Huffman Coding 或 者 Asymmetric Numeral Systems: Entropy Coding 
Combining Speed of Huffman Coding with Compression Rate of Arithmetic Coding。 
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状态 / 行 号 ”A B © 
1 2 3 § 
2 4 6 10 
3 7 8 15 
4 9 11 20 
5 12 14 25 
6 13 17 30 
7 16 21 

8 18 22 

9 19 26 

10 23 28 

11 24 

12 27 

13 29 

14 31 


给 定 了 这 张 表 ， 我 们 来 看 一 下 如 何 对 输入 的 字符 串 BAA 进行 编码 。 


(1) 给 定 输入 字符 串 BAA， 需 要 从 [ 行 号 , 输入 符号 ] 对 开始 编码 ， 这 里 就 是 [1,B]。” 


(2) 有 了 这 样 的 [ 行 号 ,输入 符号 ] 对 ， 就 能 定位 到 下 一 个 需要 读 取 的 值 在 表格 中 的 位 置 。 
通过 查 表 ， 得 到 单元 格 [1,B] 的 值 是 3， 因 此 ， 下 一 个 [ 行 号 ， 输 入 符号 ] 对 的 值 为 





[3;2] 
(3) 为 了 得 到 列 号 ， 接 着 读 下 一 个 符号 ， 为 A， 得 到 新 的 表 位 置 [3,A]。 
(4) 再 次 查 表 ， 得 到 单元 格 [3,A] 的 值 是 7。 
(5) 继续 读 下 一 个 符号 ， 也 为 A， 得 到 新 的 表 位 置 [7,A]。 
(6) 表 中 此 位 置 对 应 的 值 为 16。 
(7) 可 以 一 直 这 样 操作 下 去 ， 直 到 表 尾 (或 者 读 取 字符 串 的 最 后 一 个 字符 )。 
(8) 根据 这 张 表 ， 将 输入 的 BAA 转换 为 了 [3,7,16]。 

















解码 过 程 则 与 编码 过 程 相反 。 


(1) 从 最 后 一 个 值 16 开始 解码 。 

(2) 搜索 整个 表 后 ， 发 现 16 位 于 表 的 7 行 ，A 列 。 
(3) 将 A 输出 作为 符号 ， 而 7 则 变 为 当前 的 值 。 
(4) 再 次 搜索 表 ， 发 现 7 位 于 表 的 3 行 ，A 列 。 

(5) 再 次 将 A 输出 ， 此 时 3 则 变 为 当前 的 值 。 


Wit 
































(6) 在 表 中 搜索 3， 发 现 它 位 于 1 行 ，B 列 。 由 于 已 经 到 了 第 1 行 ， 所 以 不 能 继续 操作 ， 解 


码 过 程 结束 。 





注 9: 注意 ，1 始终 是 初始 状态 。 








统计 编码 


| 63 


(7) 解码 后 的 符号 流 为 [A,A,B]， 这 是 因为 从 后 往 前 解码 。 
(8) 倒置 所 得 到 的 字符 串 ， 就 得 到 了 源 字符 串 BAA。 





从 上 面 的 编码 和 解码 过 程 可 以 看 出 ， 有 了 这 张 表 以 及 相应 的 操作 方法 ， 就 可 以 对 输入 的 字 
符 串 正 确 地 编码 和 解码 。 


5.4.2 ”创建 备查 表 

正如 前 面 我 们 所 看 到 的 那样 ， 这 一 算法 的 核心 就 是 这 张 神奇 的 备查 表 ， 它 使 得 从 符号 转换 
为 数值 再 从 数值 转换 为 符号 成 为 可 能 。 创 建 这 张 表 时 ， 需 要 先 根据 符号 出 现 概 率 的 大 小 排 
序 ， 每 个 符号 作为 表 的 一 列 ， 从 左 往 右 概率 依次 递减 。 
































前 面 的 那 张 表 中 ， 符 号 A、B、C 的 概率 P([A,B,C]) = [0.45,0.35,0.2], 其 中 每 个 符号 都 被 分 
配 作为 表 的 一 列 。 


接 下 来 需要 往 表 中 填 入 数值 ， 这 些 数值 需 满足 以 下 条 件 : 


。 表 中 的 每 个 值 都 是 唯一 的 ( 即 不 存在 重复 ) 
。 每 列 都 按照 值 从 小 到 大 排序 
。 每 行 的 值 都 要 比 该 行 的 行 号 大 
































如 果 能 遵循 这 些 原则 ， 那 么 前 面 展示 的 编码 / 解码 转换 就 都 能 正常 工作 ， 但 是 如 果 想 要 
tANS 变 成 真正 的 烂 编码 器 ， 还 必须 要 考虑 以 下 两 个 性 质 : 


(1) 在 确定 每 一 列 值 的 个 数 时 ， 需 满足 该 值 乘 以 maxVal "后 ， 等 于 该 列 符号 的 出 现 概 率 ， 
(2) 在 确定 每 一 行 的 值 时 ， 需 确保 该 行列 选择 的 值 与 该 列 符号 的 出 现 概率 一 致 这样 当 用 
该 值 除 以 行 号 ， 所 得 商 就 会 近似) 等 于 该 列 符号 的 出 现 概 率 。 


下 面 来 好 好 看 看 前 面 那 张 表 的 这 些 性 质 。 


第 一 个 性 质 比较 简单 。 这 张 表 中 最 大 的 值 maxVal = 31。 为 满足 前 面 所 述 的 性 质 ， 我 们 需要 

将 maxVal 细 分 ， 并 将 P(S) x maxVal 个 值 分 配给 各 个 列 。 具 体 到 前 面 所 举 的 例子 ， 有 如 下 

计算 。 

。 符号 B 的 出 现 概率 P(B)=0.35， 因 此 B 列 会 有 floor(0.35 x31)=10 个 值 出 现 。 

。 符号 C 进行 同样 的 处 理 ， 因 此 C 列 会 有 6 个 值 (0.2x31=6)。 

。 最 可 能 出 现 的 符号 ， 也 就 是 最 左边 的 A 列 , 一 共有 P(A)xmaxVal + 1 =0.45x31 +1= 
14 行 ， 这 是 因为 A 列 还 需要 为 maxVal 增加 额外 的 一 行 。 






























































注 10: 我 们 还 没有 说 maxVal 是 什么 意思 ， 不 过 很 快 就 会 选择 一 个 合适 的 值 作为 maxVal。 
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这 样 ， 就 对 maxVal 进行 了 细 分 ， 让 每 个 符号 出 现 的 行 数 与 maxVal 的 比 等 于 其 出 现 概率 。” 


第 二 个 性 质 表 明 ， 每 一 行 的 值 可 以 用 行 号 乘 以 每 个 符号 的 出 现 概率 计算 出 来 。 

















具体 到 前 面 所 举 的 样 表 ， 符 号 表 S = [A,B,C] 中 各 符号 的 出 现 概率 为 P(S) = [0.45,0.35,0.2]， 
再 任意 选 一 个 行 ， 比 如 说 第 $ 行 ， 从 左 到 右 各 单元 格 的 值 依 次 为 12、14、25。 














现在 , 用 这 些 值 除 行 号 , 所 得 的 结果 与 符号 的 出 现 概率 非常 接近 : [5/12,5/14,5/25] = [0.416 67， 
0.357,0.2] = P(S)。 


第 二 个 性 质 必 须 对 每 一 行 都 成 立 ， 通 过 下 表 可 以 看 出 对 A 列 来 说 ， 每 一 行 的 值 基本 都 能 使 
P(A) = 0.45。 


行 号 P(A) 行 号 /P(A) 表 中 实际 值 ” 行 号 / 值 





1 0.45 2;2223,. 2 05 
0.45 4.4444... 4 0.5 

3 0.45 6.6666... 4 0.42 

4 0.45 8.8888... 9 0.444... 
3 0.45 LL; 12 0.416... 


那么 ， 为 什么 有 时 候 表格 中 实际 分 配 的 值 会 和 计算 得 出 来 的 值 不 一 致 呢 ? 答案 是 为 了 避免 
重复 。 

表 中 的 每 个 值 都 必须 是 唯一 的 ， 但 由 于 计算 的 时 候 需 要 四 人 钨 五 人 ， 因 此 有 时 候 就 难免 会 出 
现 披 此 冲突 的 情况 。 例 如 ，LP(C) =5， 而 2/P(B)=5.714， 与 5 接近 。 








可 以 通过 使 用 表 中 还 没有 使 用 的 下 一 个 更 大 的 值 ， 来 解决 冲突 问题 。 例 如 ， 对 前 面 的 样 表 
B 列 、2 行 这 个 单元 格 赋值 时 ， 就 不 能 再 用 5 (因为 它 已 经 在 1 行使 用 了 )， 此 时 可 以 尝试 
使 用 下 一 个 更 大 的 值 6， 而 6 还 没有 使 用 过 ， 因 此 可 以 使 用 “。 

















如 果 这 两 条 性 质 都 能 满足 ， 那 么 我 们 就 能 完整 地 创建 出 前 面 那样 的 表 ， 对 数据 正确 地 进行 
编码 解码 从 而 实现 压缩 的 目的 。 








选择 一 个 maxVal 
maxVal 的 选择 直接 影响 到 输出 的 压缩 结果 ， 而 压缩 结果 又 直接 与 编码 所 允许 的 整数 精度 
相关 。 


因此 ， 目 标 就 是 为 每 个 符号 分 配 一 个 子 区 间 ， 使 其 长 度 与 该 符号 的 出 现 概率 相 匹 配 。 如 果 
编码 过 程 和 表 中 值 的 计算 都 是 在 序 点 数 范 围 内 进行 ， 那 么 这 不 会 是 什么 大 问题 : 让 每 个 符 

































































注 11: 注意 ， 如 果 创 建 的 是 一 张 完整 的 二 维 表 〈 也 就 是 说 每 一 列 的 高 度 都 相等 )， 就 需要 在 每 一 列 超出 行 
高 的 那些 位 置 上 填 一 些 特定 的 值 (比如 -1 或 者 其 他 值 )， 以 表明 这 些 单元 格 是 空 的 或 无 效 的 。 

注 12: 如 果 考 虑 性 能 ,其 实 有 很 多 种 不 同 的 方法 可 以 对 已 使 用 的 值 进行 标记 。 建 议 使 用 Andrew Polar 的 “ 宾 
果 板 ”方法 (“bingo board”method ) 。 
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号 对 应 区 间 的 大 小 等 于 其 概率 就 可 以 了 。 然 而 现在 的 问题 是 ， 编 码 与 解码 过 程 都 是 在 和 整 
数 打 交道 。 因 此 ， 需 要 创造 出 某 个 大 小 的 整数 空间 ( 即 从 2 到 maxVal)， 这样 可 以 为 每 个 
符号 分 配 相应 的 子 空间 而 不 会 遇 到 精确 度 的 问题 。 





假定 需要 处 理 的 数据 集中 有 28 个 不 同 的 符号 ， 那 么 最 低 限 度 下 需要 LOG2(28) = 5 个 二 进 
制 位 的 空间 大 小 ， 这 样 一 来 ，maxVal 的 值 就 等 于 21 = 31。 


然而 ， 由 于 每 个 符号 的 出 现 概率 并 非 完全 相同 ， 这 个 取 值 并 不 能 让 我 们 有 足够 的 空间 为 每 
个 符号 都 分 配 不 同 的 空间 大 小 。 为 了 适应 这 种 情况 ， 就 需要 增加 二 进 制 位 的 数量 。 


因此 ， 选 择 的 maxVal 应 该 是 一 个 函数 ， 该 函数 是 所 需要 的 最 小 二 进 制 位 数 加 上 由 于 精度 
的 需要 而 额外 增加 的 二 进 制 位 数 : 


numPrecisionBits =LOG2(numSymbols)+magicExtraBits 


maxVal 音 (DO = 


这 里 ，magicExtraBits 一 般 取 2~8 的 某 个 值 ， 或 者 取 任 何 对 于 具体 数据 集 来 说 合适 的 值 。 
正如 稍 后 会 展示 的 那样 ， 对 于 magicExtraBits 的 取 值 ， 要 综合 考虑 压缩 质量 和 上 时间， 因为 
这 个 值 越 大 ， 压 缩 率 就 越 高 ， 但 同时 压缩 需要 的 时 间 也 会 越 长 。 


5.4.3 ”使 用 ANS 压 缩 数 据 
前 面 介绍 了 备查 表 的 工作 原理 ， 然 而 ， 那 里 的 输出 达 不 到 统计 压缩 的 目的 。 为 了 达到 这 一 


目的 ， 还 需要 对 前 面 介绍 的 算法 进行 一 些 调整 。 

















一 



































。 首先 ， 不 再 从 1 行 开始 ， 而 是 将 初始 状态 ( 行 号 ) 选择 为 maxVal。 
。 其 次 ， 对 从 数据 流 中 读 取 的 每 个 符号 : 
一 将 目标 行 设 为 该 符号 的 列 高 度 ， 
一 右 移 状 态 值 直到 它 比 目 标 行 的 值 小 ; 
一 状态 值 右 移 的 过 程 中 所 丢弃 的 每 个 二 进 制 位 都 应 该 输出 到 编码 后 的 二 进 制 位 流 中 。 








还 是 前 面 那 张 表 ， 经 过 这 样 的 调整 之 后 ， 下 面 来 看 字符 串 “ABAC” 的 编码 过 程 。 





(1) 从 初始 状态 开始 ， 由 于 初始 状态 值 = maxVal = 31 (二 进 制 为 11111) ， 因 此 从 31 开始 。 
(2) 从 字符 串 中 读 取 第 一 个 符号 A， 因 此 第 一 个 表 位 置 为 [31,A]， 同 时 将 目标 行 设 为 符号 A 
的 列 高 14。 
(3) 由 于 31 > 14， 因 此 需要 移 位 并 将 相应 的 二 进 制 位 输出 。 
a. 将 状态 值 11111 右 移 一 位 ， 得 到 1111， 同 时 将 截断 的 最 右边 的 1 输出 。 
b. 现在 ， 状 态 值 为 1 35， 还 是 比 14 大 ， 再 次 右 移 一 位 ， 状 态 值 变 为 111， 再 次 将 右边 的 1 
输出 。 
c. 状态 值 现在 为 7， 我 们 已 经 截断 并 输出 2 个 二 进 制 位 〈 即 11)。 
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(4) 现在 ， 将 备查 表单 元 格 [7,A] 的 值 16 (二 进 制 为 10000) 赋 给 状态 值 。 

(5) 读 取 下 一 个 符号 B， 得 到 第 二 个 表 位 置 为 [16,B]， 同 时 将 目标 行 设 为 符号 B 的 列 高 10。 

(6) 由 于 16 > 10， 需 要 移 位 并 输出 相应 的 二 进 制 位 。 
a. 状态 值 16 右 移 一 位 后 变 成 8 (二 进 制 为 1000) ， 同 时 将 最 右边 的 0 输出 。 
b. 由 于 8<10， 因 此 可 以 继续 读 取 一 个 符号 。 

(7) 将 备查 表单 元 格 [8,B] 的 值 22 (二 进 制 为 10110) 赋 给 状态 值 。 

(8) 读 取 下 一 个 符号 A， 得 到 第 三 个 表 位 置 为 [22,A]， 同 时 将 目标 行 设 为 符号 A 的 列 高 14。 

(9) 由 于 22 > 14， 需 要 移 位 并 输出 相应 的 二 进 制 位 。 右 移 后 状态 值 变 为 1011， 同 时 将 最 右 
边 的 0 输出 。 

(10) 将 备查 表单 元 格 [11,A] 的 值 24 (二 进 制 为 11000) 赋 给 状态 值 。 

(11) 读 取 下 一 个 符号 C， 得 到 第 四 个 表 位 置 为 [24,C]， 同 时 将 目标 行 设 为 符号 C 的 列 高 6。 

(12) 由 于 24 > 6， 需 要 移 位 并 输出 相应 的 二 进 制 位 。 右 移 两 次 后 状态 值 变 为 110， 同 时 将 
最 右边 的 00 输出 。 

(13) 将 备查 表单 元 格 [6,C] 的 值 30 (二 进 制 为 11110) 赋 给 状态 值 。 

(14) 由 于 字符 串 已 经 为 空 ， 将 状态 值 (11110) 全 部 输出 。 

(15) 因此 ， 最 终 的 输出 流 为 11000011110， 共 11 个 二 进 制 位 。 当 然 ， 除 此 之 外 ， 还 需要 
加 上 符号 概率 表 所 占 的 二 进 制 位 数 。 











5.4.4 解码 示例 
解码 的 过 程 与 上 面 的 编码 过 程 相反 。 


(1) 从 压缩 后 的 数据 流 中 读 出 符号 出 现 频率 数据 。 
(2) 根据 符号 出 现 频率 信息 创建 备查 表 。 

(3) 继续 从 数据 流 中 读 出 状态 值 。 

(4) 找 出 该 状态 值 在 备查 表 中 的 位 置 。 








(5) 将 该 值 所 在 的 列 号 作为 符号 输出 。 
(6) 将 当前 行 号 赋 给 该 值 。 








(7) 继续 从 数据 流 中 读 取 一 些 二 进 制 位 (并 放 到 该 值 的 后 面 ， 使 其 成 为 完整 的 状态 值 ) 。 











注意 ， 在 这 个 例子 中 maxVal = 31， 即 精度 为 5 个 二 进 制 位 (5 bits of precision)。 
创建 好 备查 表 之 后 ， 我 们 来 看 一 下 从 编码 后 的 数据 流 11000011110 解码 的 过 程 。 


(1) 由 于 目标 状态 值 为 5 位 ， 因 此 先 从 数据 流 中 读 出 最 后 5 个 二 进 制 位 ， 即 11110 ( 即 十 进 
制 数 30)。 

(2) 找到 唯一 值 30 在 表 中 的 出 现 位 置 ， 为 [C,6]。 

(3) 输出 符号 C。 
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(4) 6 (二 进 制 为 110) 只 有 3 个 二 进 制 位 ， 因 此 需要 从 数据 流 中 再 读 取 2 个 二 进 制 位 (天 
为 状态 值 为 5 个 二 进 制 位 )。 

(5) 继续 读 取 数 据 流 的 最 后 2 个 二 进 制 位 00， 并 把 它 加 到 110 后 ， 现 在 的 状态 值 为 11000 
( 即 十 进 制 数 24) 。 

(6) 找到 24 在 表 中 的 出 现 位 置 ， 为 [A,11]。 

(7) 输出 符号 A。 

(8) 11 (二 进 制 为 1011) 只 有 4 位， 因此 需要 从 数据 流 中 再 读 取 1 个 二 进 制 位 ， 此 时 状态 
值 为 10110 〈 即 十 进 制 数 22 ) 。 

(9) 找到 22 在 表 中 的 出 现 位 置 ， 为 [B,8]。 

(10) 输出 符号 B。 

(11) 8 (二 进 制 为 1000) 只 有 4 个 二 进 制 位 ， 继 续 读 取 1 个 二 进 制 位 ， 此 时 状态 值 为 10000 
( 即 十 进 制 数 16)。 

(12) 找到 16 在 表 中 的 出 现 位 置 ， 为 [A,7]。 

(13) 输出 符号 A。 

(14) 7 (二 进 制 为 111) 只 有 3 个 二 进 制 位 ， 继 续 读 取 2 个 二 进 制 位 ， 此 时 状态 值 为 11111 
( 即 十 进 制 数 31 ) 。 

(15) 由 于 状态 值 现在 等 于 最 大 值 maxVal (11111)， 我 们 知道 这 是 结束 的 标志 ， 因 此 停止 
解码 。 

(16) 将 得 到 的 字符 串 倒置 ， 就 得 到 了 源 字符 串 ABAC。 























5.4.5 ”压缩 是 从 了 哪里 来 的 


答案 是 压缩 来 自 于 逐 位 输出 (bit-wise output) 。 


因为 出 现 可 能 性 越 小 的 符号 其 列 高 越 低 ， 有 效 的 行 号 值 离 最 可 能 出 现 的 符号 也 就 越 远 (二 
进 制 位 距离 意义 上 的 远 )， 所 以 为 了 得 到 更 小 的 行 号， 就 需要 进行 更 多 次 的 右 移 操作 ， 这 
也 意味 着 每 次 循环 会 有 更 多 的 二 进 制 位 输出 到 数据 流 。 因 此 ， 出 现 可 能 性 越 小 的 符号 ， 就 
会 输出 更 多 的 二 进 制 位 到 最 终 的 数据 流 中 。 


就 像 前 面 提 到 的 那样 ， 位 数 越 多 ， 空 间 的 精确 度 就 越 高 (因此 ，maxVal 的 值 也 越 大 )。 这 
会 让 备查 表 中 出 现 更 少 的 精度 冲突 ， 因 为 更 大 的 空间 可 以 让 整数 与 通过 P(S) x maxVal 计 
算出 来 的 值 更 接近 。 回 忆 一 下 ， 当 备查 表 中 出 现 冲 突 时 ， 就 需要 通过 线性 查找 法 去 找 一 个 
更 大 的 没有 使 用 的 值 来 解决 冲突 。 在 编码 时 ， 计 算出 来 的 值 与 表 中 实际 值 之 差 ， 就 会 造成 
为 了 让 状态 值 小 于 目标 行 值 而 进行 更 多 次 的 右 移 。 当 精确 度 较 高 时 ， 表 中 的 值 冲 突 就 会 减 
少 ， 需 要 人 为 增 大 的 值 也 会 减少 ， 因 此 右 移 时 输出 的 二 进 制 位 数 也 就 变 少 了 。 
当然 ， 这 样 做 也 会 有 不 利 的 一 面 。 精 确 度 高 了 ， 就 需要 有 更 大 的 备查 表 ， 创 建 这 张 表 需 要 
的 时 间 就 会 越 长 ， 存 储 表 需 要 的 空间 也 会 越 大 。 因 此 ， 要 根据 特定 的 情况 ， 综 合 考 虑 性 能 
和 存储 的 要 求 权衡 取舍 。 
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5.5 在 实际 压缩 中 ， 选 择 哪 一 种 统计 压缩 算法 


现在 ， 在 知道 了 3 种 很 棒 的 可 以 应 用 的 统计 压缩 算法 后 ， 如 果 有 数据 集 需要 压缩 ， 你 会 选 
择 哪 一 种 呢 ? 

这 是 一 个 普遍 的 问题 ， 在 过 去 20 多 年 的 大 部 分 时 间 里 ， 数 据 压 缩 领域 内 有 大 量 关 于 哈 夫 
曼 编 码 与 算术 编码 的 争论 。1993 年 ， 这 一 争论 首次 曝光 ， 这 一 年 Bookstein 和 Klein 发 表 
了 一 篇 题 为 Huffman Coding Dead? 的 论文 。 

虽然 这 篇 文章 已 发 表 20 多 年 了 ， 但 争论 双方 依然 保持 原来 的 观点 。 

因为 计算 机 变 得 越 来 越 快 (并且 算 术 压 缩 的 专利 已 经 到 期 )， 所 以 算术 压缩 已 成 为 目前 的 
主流 算法 。 它 不 仅 应 用 在 大 多 数 的 多 媒体 编码 器 中 ， 甚 至 有 了 有 效 的 硬件 实现 。 

日 ANS 改变 了 一 切 。 虽 然 它 在 数据 压缩 领域 里 出 现 的 时 间 还 不 长 ， 但 是 已 开始 取代 过 去 
20 多 年 里 占据 主流 地 位 的 哈 夫 曼 编 码 和 算术 编码 。 
































例如 ，ZHuff、LZTurbo、LZA、Oodle 和 LZNA 这 些 压缩 工具 已 开始 使 用 ANS。 鉴 于 其 速 
度 和 性 能 ，ANS 成 为 主要 的 编码 方法 似乎 只 是 时 间 问 题 。 实 际 上 ， 在 2013 年 ， 这 一 算法 
又 出 现 了 一 个 被 称 为 有 限 状 态 (Finite State Entropy，FSE) 的 更 注重 性 能 的 版 本 ， 它 只 
使 用 加 法 、 掩 码 和 移 位 运算 ,使 ANS 对 开发 人 员 更 具 吸 引力 。 它 的 性 能 是 如 此 强大 ， 以 
至 于 2015 年 推出 了 一 款 名 为 LZFSE 的 GZIP 变种 ， 作 为 苹果 下 一 代 iOS 版 本 的 核心 API。 

















目前 看 来 未 来 的 路 似乎 很 清楚 : ANS 和 FSE 将 终结 哈 夫 曼 编 码 和 算术 编码 在 压缩 领域 内 
几 十 年 的 “霸主 ”地 位 。 
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第 6 章 


目 适应 统计 编码 





6.1 ”位置 对 粹 的 重要 性 

第 5 章 介绍 的 所 有 统计 编码 算法 ， 在 编码 开始 之 前 都 需要 遍历 一 次 数据 ， 以 计算 出 各 符号 
出 现 的 概率 。 这 样 做 是 有 缺点 的 ， 为 了 计算 概率 总 需要 多 遍历 一 次 数据 集 ， 而 在 计算 出 整 
个 数据 集中 各 符号 的 出 现 概率 后 ， 还 要 继续 处 理 这 些 数值 。 如 果 是 相对 较 小 的 数据 集 ， 那 
么 这 些 就 不 是 什么 问题 。 

然而 ， 随 着 要 压缩 的 数据 集 变 大 ， 统 计 编 码 的 结果 与 炉 的 偏差 也 会 越 来 越 大 ， 这 是 因为 数 


据 集 的 不 同 部 分 有 着 不 同 的 概率 特征 。 如 果 处 理 的 是 流 数 据 ， 比 如 视频 流 或 音频 流 ， 由 于 
整个 数据 集 没有 “结尾 ”"， 因 此 就 不 能 “遍历 两 次 ”。 

















这 些 概 念 适用 于 所 有 的 流 数 据 ， 下 面 就 在 相对 简单 的 示例 数据 集中 来 看 一 看 这 些 概念 。 在 
数据 流 中 ， 字 符 Q 可 能 会 在 前 三 分 之 一 部 分 出 现 很 多 次 ， 而 在 后 三 分 之 二 部 分 则 一 次 也 没 
有 出 现 。 统 计 编 码 算法 的 概率 表 无 法 处 理 字符 Q 分 布 的 这 种 局 部 性 。 如 果 字 符 Q 出 现 的 
概率 为 0.01， 那 么 通常 我 们 会 期 望 它 在 整个 数据 流 中 均匀 分 布 ， 也 就 是 说 ， 大 约 每 100 个 
字符 中 就 有 1 个 是 Q。 


然而 实际 数据 的 情况 并 非 如 此 ， 数 据 中 总 会 存在 某 种 类 型 的 局 部 偏 态 (locality-dependent 
skewing)“， 将 某 些 符号 、 想 法 或 者 单词 集中 在 数据 集 的 某 个 子 区 间 里 。 


结果 是 统计 编码 算法 生成 的 编码 比 根据 烂 生成 的 更 脐 肿 ， 这 是 因为 其 所 依据 的 概率 信息 没 


























注 1: 这 个 词 完全 是 我 们 自 造 的 。 
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有 考虑 统计 上 的 局 部 变化 。 例 如 ， 如 果 将 数据 流 分 为 N 块 并 且 每 块 都 单独 压缩 ， 那 么 得 到 
的 结果 可 能 会 比 将 数据 流 整 体 压缩 得 到 的 结果 小 (如果 数据 流 中 存在 很 多 局 部 偏 态 的 情况 
的 话 ”)。 


下 面 来 看 看 这 样 一 个 简单 的 示例 数据 集 : 





AAAAAAAAAAAAAAAAAAABBBBBBBBBBBBBBCDEFGHIJKLMNOPQRSTUVWXYZ 


该 数据 集 的 炉 约 为 3.48， 说 明 平 均 每 个 符号 需要 使 用 3.48 个 二 进 制 位 的 空间 ， 整 个 数据 集 
压缩 后 的 大 小 为 198.36 个 二 进 制 位 。 如 果 使 用 哈 夫 曼 编 码 ， 编 码 后 的 大 小 为 202 个 二 进 制 
位 ， 也 就 是 每 个 符号 约 使 用 3.54 个 二 进 制 位 ?3， 这 样 的 结果 看 起 来 还 不 错 。 


但 老实 说 ， 这 里 其 实 可 以 做 得 更 好 。 我 们 可 以 清楚 地 看 到 整个 字符 串 的 前 一 半 高 度 重 复 ， 
只 由 两 个 字符 组 成 。 实 际 上 ， 遇 到 这 种 情况 我 们 会 去 想 办 法 分 割 整个 字符 串 ， 这 样 ， 对 字 
符 串 的 前 一 半 ， 就 会 有 更 好 的 编码 方法 。 与 将 整个 字符 串 转 换 为 VLC 相 比 ， 将 字符 串 分 
成 两 半 ， 前 一 半 每 个 符号 平均 只 需要 1 个 二 进 制 位 ， 后 一 半 平 均 需 要 5 个 二 进 制 位 ， 难 道 
这 样 的 结果 不 是 更 令 人 满意 吗 ? 分 割 为 两 半 后 ， 整 个 字符 串 共 需要 122 个 二 进 制 位 ， 平 均 
每 个 符号 需要 2.1 个 二 进 制 位 。( 这 里 需要 指出 的 是 ， 这 样 的 结果 已 经 超越 了 香农 ， 而 且 远 
远 超 越 。) 
























































这 让 我 们 接触 到 数据 压缩 领域 内 一 个 重要 的 理论 ， 即 局 部 性 很 重要 (locality matters)“。 由 
于 数据 流 一 般 以 线性 的 方式 生成 ， 因 此 数据 流 中 很 有 可 能 会 出 现 某 一 部 分 的 特征 与 其 他 部 
分 完全 不 同 的 情况 。 


要 实现 这 种 方式 的 优化 ， 真 正 的 挑战 在 于 如 何以 最 佳 的 方式 分 割 数据 流 。 像 前 面 那样 先 扫 
描 ， 再 试 着 合理 地 分 段 ， 只 会 让 你 更 抓 狂 ， 并 且 会 有 一 种 解决 NP 完全 问题 (NP-complete 
problem) 的 感觉 。 因 此 ， 我 们 编码 时 不 再 提前 扫描 并 去 找 合 适 的 分 割 点 ， 而 是 允许 统计 编 
码 算法 自动 “ 重 置 。 


这 一 过 程 在 概念 上 很 简单 ， 就 是 在 编码 时 ， 如 果 “ 期 望 ”的 灶 与 “实际 的 符号 平均 二 进 制 
位 数 ” 之 间 出 现 显 著 差 异 ， 那 么 统计 编码 算法 会 重 置 概 率 表 ， 并 使 用 重 置 后 的 概率 表 进 行 
编码 。 

这 种 具有 适应 数据 流 灶 的 局 部 特性 能 力 的 统计 编码 算法 ， 通 党 被 称 为 “动态 ”或 “ 自 适 
应 ”统计 编码 算法 。 这 些 算法 变 体 构 成 了 大 多 数 重要 的 、 高 性 能 的 、 高 压缩 率 的 多 媒体 数 
据 流 (如 图 片 、 视 频 及 音频 ) 压缩 算法 的 基础 。 

























































































注 2: 自 造 术语 很 有 趣 ， 多 次 使 用 自 造 的 术语 更 有 趣 ， 因 此 我 们 会 继续 这 样 做 。 

注 3: 从 表面 看 ,这 两 个 值 ( 炉 与 实际 的 符号 平均 二 进 制 位 数 ) 之 间 的 差异 与 第 5 章 介绍 的 要 取 整 数 有 关 ( 特 
别 是 哈 夫 曼 编码 与 算术 编码 之 间 的 差异 有 关 )。 

注 4: 实际 是 性 能 很 重要 (#PERFMATTERS)， 但 那 会 是 一 本 完全 不 同 的 书 。 
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6.2 自 适 应 VLC 编 码 
下 面 来 看 看 自 适 应 算法 中 最 简单 的 一 种 ， 了 解 其 基本 的 工作 原理 。 
一 般 来 说 ， 统 计 压 缩 有 3 个 步 又: 


(1) 遍历 数据 流 并 计算 各 个 符号 的 出 现 概率 ， 
(2) 根据 概率 为 符号 生成 VLC， 
(3) 再 次 壳 历 数据 流 并 输出 对 应 的 码 字 。 


从 上 面 可 以 看 出 ， 压 缩 时 需要 遍历 (或 者 说 扫描 ) 数据 流 两 次 ， 并 且 整 个 数据 集 只 有 一 套 
VLC 表 。 这 里 的 问题 是 ，VLC 表 是 静态 的 。 









































而 在 自 适应 的 压缩 算法 中 ， 这 3 个 步骤 简化 为 仅 遍历 一 次 数据 集 ， 但 是 过 程 要 更 复杂 。 关 
键 是 符号 码 字 对 应 表 并 非 必须 一 成 不 变 ， 相 反 ， 可 以 根据 读 到 的 符号 更 新 它 。 














自 适应 统计 编码 的 关键 在 于 其 符号 码 字 对 应 表 并 非 一 成 不 变 ， 相 反 ， 可 以 根 
据 读 到 的 符号 动态 地 生成 YLC。 这 一 过 程 的 动态 性 质 ， 让 我 们 可 以 根据 需要 
对 VLC 表 进 行 修改 ， 比 如 对 其 重 置 。 

















6.2.1 动态 创建 VLC 表 
动态 创建 VLC 表 的 原理 如 下 。 


在 编码 器 处 理 数据 流 时 ， 每 读 取 一 个 符号 ， 编 码 器 都 会 问 : 








。 这 个 符号 之 前 出 现 过 吗 ? 
一 如 有 果 出 现 过 ， 那 么 输出 当前 分 配 的 码 字 ， 并 更 新 其 出 现 的 概率 。 
- 如 果 没 有 ， 则 进行 一 些 特殊 处 理 〈 稍 后 会 讲 到 这 个 部 分 ) 。 


请 记 住 上 面 的 内 容 。 假 定 你 正在 处 理 某 个 数据 流 ， 已 经 知道 了 其 中 的 符号 及 相应 的 概率 期 
望 。 目 前 已 有 的 VLC 表 如 下 表 所 示 。 


























符号 。 概率 ” ” 码 字 
A 0.5 0 
B 0.4 10 











注 5: 当 和 那些 非常 聪明 的 人 谈论 数据 压缩 时 ， 他 们 通常 会 认为 统计 编码 只 有 两 个 步 又， 建 模 和 预测 。John 
Brooks， 看 到 这 里 ， 你 很 高 兴 吧 ? 
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接 下 来 ,需要 从 输入 流 中 读 取 下 一 个 符号 ， 这 个 符号 恰好 是 BB， 于 是 进行 下 面 的 操作 。 








(1) 输出 B 当前 对 应 的 码 字 10。 
(2) 更 新 相应 的 概率 ， 因 为 B 出 现 的 可 能 性 现在 变 大 了 一 些 (其 他 符号 出 现 的 概率 变 小 了 
一 些 )， 更 新 后 的 表 如 下 所 示 。 











符号 更 新 后 的 概率 。” 码 字 
0.45 0 
0.45 10 
0.1 11 





OW> 


(3) 继续 读 取 下 一 个 符号 ， 还 是 B， 因 此 再 次 输出 10， 并 继续 更 新 相关 符号 的 概率 。 再 次 
更 新 后 的 表 如 下 所 示 。 





符号 更 新 后 的 概率 ”更 新 后 的 码 字 
0.4 10 
0.5 0 
0.1 11 





OW> 


注意 ， 这 里 有 一 件 重 要 的 事情 发 生 。 由 于 B 已 经 成 为 数据 流 中 最 可 能 出 现 的 符号 ， 因 此 将 
最 短 的 码 字 分 配给 它 ， 如 果 下 一 次 读 到 的 符号 还 是 B， 那 么 相应 的 输出 会 是 0， 而 不 是 之 
前 的 10。 





通过 动态 更 新 读 到 的 符号 的 出 现 概 率 ， 我 们 就 可 以 根据 需要 去 调整 分 配给 各 个 符号 的 码 字 
长 度 。 


解码 
为 了 确保 这 样 的 处 理 真正 有 效 ， 下 面 来 看 解码 过 程 。 




















从 现成 的 频率 以 及 下 表 开 始 。 


符号 概率 码 字 
0.45 0 
0.45 10 
0.1 11 





OW> 


从 输入 流 中 去 读 当前 存在 的 码 字 ， 这 里 是 10， 然 后 输出 B。 由 于 B 再 次 出 现 ， 因 此 需要 更 
新 概率 表 ， 更 新 后 的 表 如 下 所 示 。 























意 ， 这 里 我 们 给 出 起 始 频 率 只 是 为 了 教学 的 方便 ,现实 中 ， 你 是 不 可 能 得 到 这 样 的 信息 ， 而 需要 从 
头 来 创建 这 张 表 。 














A 
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符号 更 新 后 的 概率 ”更 新 后 的 码 字 
A 0.4 10 
B 0.5 0 

0.1 11 





看 ， 这 张 表 的 变化 与 编码 时 完全 相同 。 
一 切 都 正常 工作 。 
只 要 解码 器 更 新 符号 表 的 方式 与 编码 器 相同 ， 那 么 这 两 张 表 就 会 始终 保持 同步 。 

















下 面 再 来 确认 一 下 。 





口 编码 
(1) 从 输入 流 中 读 取 符号 。 
(2) 输出 该 符号 对 应 的 码 字 到 输出 流 中 。 
(3) 更 新 符号 的 出 现 概率 并 重新 生成 码 字 。 








口 解码 
(1) 从 输入 流 中 读 取 码 字 。 
CO) 输出 该 码 字 对 应 的 符号 到 输出 流 中 。 
(3) 更 新 符号 的 出 现 概率 并 重新 生成 码 字 。 


这 就 是 自 适应 统计 编码 算法 工作 的 大 致 流程 。 编 码 器 和 解码 器 都 会 动态 更 新 符号 的 出 现 概 
率 及 相应 的 码 字 ， 这 通常 以 积极 的 方式 影响 压缩 。 








6.2.2 ”字面 值 
然而 ， 现 在 我 们 仍然 面临 以 下 两 个 问题 。 


。 在 开始 编码 前 ， 最 初 的 VLC 表 是 什么 样子 ? 
。 在 解码 过 程 中 ， 如 果 读 到 一 个 VLC 表 中 不 存在 的 符号 该 怎么 办 ? 











这 两 个 问题 实际 上 是 同一 个 问题 的 两 种 问 法 ， 管 案 是 字面 值 词 条 (literal tokens ) 。 


字面 值 词 条 其 实 就 是 唯一 的 “ 假 ”符号 ， 编 码 器 和 解码 器 将 它 作 为 从 字面 值 流 (literal 
stream) 中 读 取 符号 或 者 将 符号 写 入 到 字面 值 流 中 去 的 信号 。 字 面值 流 ， 指 的 是 只 包含 字 
面值 的 数据 流 ， 换 名 话说 ， 就 是 那些 实际 上 被 编码 的 符号 流 ， 而 且 是 根据 其 在 数据 流 中 出 
现 的 先后 顺序 排列 的 。 























举 个 例子 ， 如 果 数 据 流 是 “AAAAABCABC”， 那 么 对 应 的 字面 值 流 为 “LITERAL/A/B/C”， 
编码 后 的 二 进 制 流 则 为 00 1010 01 00 00 00 01 1011 01 1100 00 10 11， 如 图 6-1 所 示 。 
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数据 流 字面 值 流 
AAAAABCABC | LiTERAL| 4 






pe | 于 | . 
00 | 1010 01 | 00 | 00 
| | 和 





由 于 出 现 概率 有 足够 

字面 值 词 条 码 字 大 的 变化 ， 因 此 字符 
A 和 LITERAL 的 码 字 
也 发 生 了 改变 











图 6-1: 该 图 展示 了 从 字面 值 流 读 取 的 字面 值 词 条 及 概率 变化 ， 是 如 何 出 现在 编码 后 的 数据 流 中 的 
在 编码 过 程 中 ， 当 编码 器 读 到 一 个 之 前 没有 遇 到 的 符号 时 ， 它 需要 做 以 下 两 件 事 。 


(1) 将 LITERAL 对 应 的 码 字 写 入 输出 流 。 
(2) 将 读 到 的 新 符号 添加 到 字面 值 流 中 。 


而 在 解码 过 程 中 ， 当 解码 器 读 到 一 个 LITERAL 码 字 时 ， 则 需要 做 下 面 两 件 事 。 


(1) 从 字面 值 流 中 读 取 下 一 个 字面 值 。 
(2) 将 该 字面 值 写 入 输出 流 并 更 新 VLC 表 。 


下 面 来 看 一 个 具体 的 例子 。 


开始 编码 时 ， 我 们 还 没有 读 任何 符号 ， 因 此 对 于 读 到 的 第 一 个 符号 ， 需 要 输出 一 个 字面 
值 。 因 为 这 是 唯一 的 选择 ， 所 以 VLC 表 最 开始 只 包含 LITERAL 这 个 符号 ， 甚 出现 概率 为 
100%， 对 应 的 码 字 为 00， 如 下 表 所 示 。 














符号 概率 码 字 
<LITERAL> 1.0 00 





当 我 们 从 输入 流 中 读 到 一 个 新 符号 时 ， 将 LITERAL 对 应 的 码 字 输出 ， 后 面 跟着 新 符号 的 
二 进 制 位 。 与 前 面 的 操作 类 似 ， 接 着 就 需要 更 新 符号 表 以 及 各 符号 的 出 现 概率 。 








符号 概率 码 字 
<LITERAL> 0.5 00 
A 0.5 01 


假定 之 后 又 读 到 符号 A， 接 着 又 读 到 另 一 个 新 符号 B， 因 此 ， 读 到 的 符号 依次 为 < LITERAL > 
AA <LITERAL> B， 现 在 的 概率 如 下 表 所 示 。 
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符号 概率 码 字 
<LITERAL> 0.4 01 
A 0.4 00 
B 0.2 10 























因此 ， 对 于 输入 字符 串 AAAAABCABC， 下 面 是 完整 的 编码 过 程 示 例 。( 可 以 参考 图 6-1 
获得 一 些 提示 。) 


这 些 字面 常量 未 编码 时 的 4 个 二 进 制 位 表示 分 别 为 ; 


A=1010 
B=1011 
C=1100 


注意 ， 对 于 VLC， 我 们 将 仅 使 用 00、01、10、11 这 样 两 位 长 的 码 字 来 简化 说 明 。 


(1) VLC 表 中 仅 包含 LITERAL 这 个 字符 ， 其 出 现 概 率 为 1.0， 对 应 的 码 字 为 00。 
(2) 读 取 第 一 个 符号 A。 
a. 符号 A 不 在 VLC 表 中 ， 因 此 需要 输出 字面 值 词 条 LIT 的 码 字 ( 即 00)， 然 后 是 A 对 
应 的 4 个 二 进 制 位 表示 : 1010。 
b. 将 符号 A 添加 到 VLC 表 中 ， 并 根据 符号 的 出 现 频次 更 新 表 。 由 于 A 和 LITERAL 各 出 
现 一 次 ， 因 此 两 者 的 出 现 概 率 均 为 0.5， 并 为 两 个 符号 分 配 码 字 : LIT=00，A=01。 
(3) 继续 读 下 一 个 符号 ， 还 是 A。 
a. 由 于 A 已 经 在 表 中 ， 因 此 输出 其 对 应 的 码 字 01。 
b. 更 新 VLC 表 。 符 号 A 已 成 为 最 经 常 出 现 的 符号 ， 因 此 需要 重新 分 配 相 应 的 码 字 : 
A=00, LIT=01。 
(4) 继续 读 取 下 一 个 符号 ， 还 是 A。 
输出 A 对 应 的 码 字 00 并 更 新 VLC 表 中 的 概率 。 
(5) 继续 读 取 下 一 个 符号 ， 又 是 A。 
输出 A 对 应 的 码 字 00 并 更 新 VLC 表 中 的 概率 。 
(6) 继续 读 取 下 一 个 符号 ,仍然 是 A。 
输出 A 对 应 的 码 字 00 并 更 新 VLC 表 中 的 概率 。 
(7) 继续 读 取 下 一 个 符号 ， 是 B。 
a. B 不 在 VLC 表 中 ， 因 此 需要 输出 字面 值 词 条 LIT 的 码 字 ( 即 01)， 然 后 是 B 的 4 个 
二 进 制 位 表示 : 1011。 
b. 将 B 添加 到 VLC 表 中 并 更 新 表 , A=00, LIT=01, B=10。 
(8) 继续 读 取 下 一 个 符号 ， 是 C。 
a.C 不 在 VLC 表 中 ， 因 此 需要 输出 字面 值 词 条 LIT 的 码 字 ( 即 01)， 然 后 是 C 的 4 个 
二 进 制 位 表示 : 1100。 
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b. 将 C 深 加 到 VLC 表 中 并 更 新 表 ，A= 00，LIT= 01，B= 10，C= 11。 
(9) 继续 读 取 下 一 个 符号 ， 是 A。 
输出 A 对 应 的 码 字 00 并 更 新 VLC 表 中 的 概率 。 
(10) 继续 读 取 下 一 个 符号 ， 是 B。 
输出 B 对 应 的 码 字 10 并 更 新 VLC 表 中 的 概率 。 
(11) 继续 读 取 下 一 个 符号 ,是 C。 
输出 C 对 应 的 码 字 11 并 更 新 VLC 表 中 的 概率 。 























因此 ， 最 终 的 输出 流 为 00 1010 01 00 00 00 01 1011 01 1100 00 10 11 ( 见 图 6-2)。 




















LT A A_A A A LT B LT C A B dC 
0 00| om 00 1011 


字面 值 词 由 于 出 现 的 概率 有 足 

条 码 字 够 大 的 变化 ， 因 此 字 
符 A 和 LITERAL 的 码 
字 也 发 生 了 改变 











图 6-2: 最 终 编码 后 的 输出 流 
那么 接 下 来 ， 你 能 用 相反 的 步骤 解码 吗 ? 


6.2.3 重 置 
自 适 应 统计 编码 的 真正 强大 之 处 在 于 ， 当 输出 流 的 炉 要 变 大 失控 时 ， 它 能 重 置 输出 流 。 























以 [AAABBBBBCCCCCC] 为 例 ， 并 将 符号 放 在 尖 括 号 中 来 表示 相应 的 字面 值 ， 如 <A> 。 





对 上 述 字符 串 编 码 后 ， 得 到 如 下 的 输出 : 


<A>00<B>,,l,l0<C> lll,1l,0 





注意 ， 最 后 的 码 字 0 对 应 的 是 最 后 一 个 符号 C， 此 时 C 的 出 现 概率 已 经 足够 大 ， 因 而 需要 
重新 为 其 分 配 码 字 。 从 中 可 以 看 到 ， 更 多 的 符号 以 及 特定 符号 的 更 多 出 现 是 如 何 影 响 最 终 
输出 的 平均 二 进 制 位 数 的。 当然 ， 如 果 遇 到 符号 C 时 就 能 重 置 VLC 表 ， 从 而 得 到 用 码 字 
0 表示 所 有 的 C 这 样 理想 的 结果 就 更 好 了 ， 此 时 得 到 如 下 的 输出 : 





























<A>,0,0,<B> ,1,1,1,0, <C>,<RESET> 0,0,0,0,0 

















结果 表明 ， 我 们 完全 可 以 采用 与 字面 值 相 同 的 策略 ， 创 建 一 个 < RESET > 词 条 ， 如 下 示例 
表 所 示 。 当 解码 器 遇 到 这 个 词 条 时 ， 它 就 会 重 置 符号 表 并 重新 开始 解码 。 编 码 与 解码 的 工 
作 原 理 与 前 面 介绍 的 相同 。 
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< RESET > 和 < LITERAL > 会 一 直 在 符号 表 中 存在 〈 像 其 他 符号 一 样 ) ， 但 随 着 时 间 的 推 
移 ， 这 两 个 符号 出 现 得 越 来 越 少 ， 因 此 其 出 现 概率 也 变 得 越 来 越 小 。 








下 表 就 展示 了 < RESET> 和 <LITERAL > 这 两 个 词 条 最 终 成 为 小 概率 符号 的 情况 。 





符号 概率 码 字 
<LITERAL> 0.05 1110 
<RESET> 0.05 1111 
A 0.4 00 
B 0.3 10 
© 0.2 110 


6.2.4 知道 何 时 重 置 


那么 ， 怎 么 知道 何 时 需要 输出 重 置 这 一 词 条 呢 ? 





为 了 做 出 重 置 的 决定 ， 需 要 做 以 下 3 件 习 





由 
o 


。 为 重 置 设 定 一 个 国 值 ， 也 就 是 说 ， 当 符号 平均 二 进 制 位 数 (bits-per-symbol，BPS) 为 
某 个 值 时 ， 放 弃 现 有 的 VLC 表 并 重新 开始 。 

。 大 致 计算 一 下 当前 输出 流 的 BPS， 并 与 设 定 的 国 值 比较 。 

。 计算 当前 已 读 取 的 输入 流 的 炉 。 





当 输 出 流 的 BPS 超过 设 定 的 阔 值 时 ， 例 如 比 BPS 大 5 个 二 进 制 位 ， 就 可 以 认为 数据 流 已 
经 发 生 了 显著 变化 ， 应 该 重 置 概率 值 。 





具体 来 说 ， 如 果 一 直 关 注 输入 符号 的 焙 ， 我 们 就 会 发 现 输出 流 的 二 进 制 位 数 通常 要 比 根据 
雯 计算 出 来 的 大 ， 用 公式 表示 就 是 


炉 x 目前 已 读 的 符号 数 < 输出 流 的 二 进 制 位 数 


这 是 因为 受 现代 硬件 的 影响 ， 二 进 制 位 数 不 可 能 有 小 数 。 作 为 替代 ， 可 以 用 输出 流 的 二 进 
制 位 数 除 以 已 读 的 符号 数 来 得 到 “输出 符号 的 平均 二 进 制 位 数 "， 如 下 所 示 : 








输出 符号 的 平均 二 进 制 位 数 = 输 出 流 的 二 进 制 位 数 / 目前 已 读 的 符号 数 
当 比 较 灶 与 输出 符号 的 平均 二 进 制 位 数 时 ， 比 较 结果 就 会 表明 输出 流 偏离 预期 BPS 的 程度 。 


























当 偏离 的 程度 大 于 设 定 的 国 值 时 ， 应 该 重 置 VLC 表 ， 因 为 此 时 输出 流 已 经 太 过 元 余 膨胀 了 。 

















国 值 不 是 硬性 规定 ， 甚 取 值 也 与 数据 疲 本 身 及 编码 器 有 关 。 每 种 支持 此 种 重 置 的 编码 器 ， 
都 可 以 根据 处 理 数据 的 不 同 而 对 相应 的 参数 调整 优化 。 
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6.2.5 ”实际 中 的 应 用 

值得 指出 的 是 ， 在 实际 场景 中 没有 人 会 使 用 这 种 简 版 的 自 适 应 VLC 算法 。 同 样 的 问题 也 
存在 于 静态 版 的 VLC 算法 中 。 相 反 ， 大 多 数 的 现代 压缩 工具 已 完全 采用 自 适 应 版 的 哈 夫 
曼 编码 器 与 算术 编码 器 ， 它 们 都 可 以 动态 生成 概率 表 ， 并 实时 更 新 符号 对 应 的 码 字 。 











不 过 ， 学 习 这 儿 布 的 内 容 并 非 是 在 做 无 用 功 。 这 些 概念 是 动态 VLC 算法 ( 即 动态 概率 表 、 
重 置 和 字面 值 ) 的 力量 之 源 ， 并 且 大 量 应 用 于 自 适应 哈 夫 曼 编码 与 自 适应 算术 编码 中 。 


6.3 自 适 应 算术 编码 


要 将 算术 编码 变 成 自 适 应 的 很 容易 ， 这 主要 是 因为 其 编码 步 又 与 概率 表 之 间 的 交互 很 简单 。 
只 要 编码 器 与 解码 器 在 更 新 概率 的 正确 顺序 上 达成 一 致 ， 我 们 就 能 根据 需要 更 新 概率 表 。 


下 面 来 看 一 个 简单 的 例子 ， 假 定 当前 的 概率 表 如 下 表 所 示 。 









































符号 概率 原始 区 间 


R 0.4 [0, 0.4) 
G 0.5 [0.4, 0.9) 
B 0.1 [0.9, 1.0) 


(1) 读 取 下 一 个 输入 符号 ， 假 定 是 字母 G。 

(2) 按 G 当前 的 概率 对 其 进行 编码 。 

(3) 根据 新 信息 更 新 概率 表 。( 由 于 不 知道 之 前 的 输入 流 ， 因 此 这 里 假定 下 表 所 示 的 就 是 更 
新 后 的 概率 值 。) 

(4) 根据 概率 表 重 新 分 配 区 间 。 








符号 更 新 后 的 概率 ”更 新 后 的 区 间 





R 0.3 [0.4,0.55) 
G 0.6 [0.55, 0.85) 
B 0.1 [0.85, 0.9) 


用 图 表示 这 一 过 程 ， 则 如 下 图 所 示 。 





时 


4 0.55 0.85 0.9 


| Es 


0.0 0.4 0.9 1.0 
0. 














解码 器 以 相反 的 方式 工作 。 给 定 当前 的 概率 ， 找 出 与 当前 输出 值 对 应 的 符号 ,然后 更 新 概 
率 表 ， 再 重新 分 配 各 符号 的 区 间 。 














增加 字面 值 与 重 置 词 条 后 ， 其 工作 原理 仍然 与 自 适应 VLC 相同 。 我 们 可 以 将 这 些 词 条 指 
定 为 附加 符号 ， 并 相应 地 调整 它们 的 权重 。 


6.4 ”月 适应 蛤 夫 曼 编码 


将 哈 夫 曼 编码 变 成 自 适应 的 不 像 算 术 编 码 那 样 简 单 ， 主 要 原因 是 哈 夫 曼 树 结构 的 处 理 比 较 
复杂 。 














考虑 这 一 问题 ， 为 了 正确 地 输出 符号 的 码 字 ， 需 要 一 棵 完整 的 哈 夫 曼 树 。 最 简单 的 想法 就 

是 ， 每 遇 到 一 个 符号 就 去 重新 生成 一 棵 完整 的 哈 夫 曼 树 。 这 一 想法 可 以 实现 ， 但 这 样 做 会 

极 大 地 影响 算法 的 性 能 。 

因此 ， 自 适应 哈 夫 曼 算法 没有 每 次 都 重新 生成 完整 的 树 ， 而 是 在 读 取 和 处 理 符号 时 调整 现 

有 的 树 。 这 就 让 情况 变 得 稍微 有 些 复杂 ， 因 为 每 读 取 一 个 符号 都 必须 要 做 以 下 这 些 事情 : 
更 新 概率 ， 


对 树 的 大 量 结 点 变换 位 置 并 重新 排序 ， 以 使 它们 与 概率 的 变化 同步 ， 
使 树 的 结构 满足 哈 夫 曼 树 的 要 求 。 









































自 适 应 哈 夫 曼 算法 的 最 初版 本 是 由 Faller” 于 1973 年 提出 的 ,1985 年 高 德 纳 * 又 对 此 算法 做 
出 重大 改进 , 但 是 所 有 现代 的 版 本 都 是 建立 在 Vitter” 于 1987 年 提出 的 方法 之 上 。 如 果 你 想 
深入 研究 ， 可 以 参阅 脚注 里 提 到 的 这 些 文献 。 


6.5 现代 的 选择 

相 比 静态 的 方法 ， 这 些 动态 的 改进 有 以 下 优点 。 
有 生成 符号 码 字 对 应 表 的 能 力 ， 无 须 将 符号 码 字 对 应 表 显 式 地 存储 在 数据 流 中 。 数 据 流 
变 小 后 ， 计 算 性 能 就 能 有 所 提高 ， 但 更 重要 的 是 下 面 两 个 优点 。 
有 实时 压缩 数据 的 能 力 ， 无 须 再 将 整个 数据 集 作 为 一 个 整体 来 处 理 。 这 让 我 们 可 以 有 效 
地 处 理 更 大 的 数据 集 ， 甚 至 都 不 用 事先 知道 要 处 理 的 数据 集 有 多 大 。 



























































注 7: 参见 Newton Faller 的 论文 An Adaptive System for Data Compression， 载 于 Record of the 7th Asilomar Conference 
on Circuits, Systems, and Computers (IEEE, 1973)， 第 593~597 页 。 

注 8: 参见 高 德 纳 的 论文 Dynamic Huffiran Coding, 载 于 .Journal of 4Algorithms,1985 年 第 6 期 ,第 163~180 页 。 
注 9: 参见 Jeffrey S. Vitter 的 论文 Design and Analysis of Dynamic Huffman Codes， 载 于 Journal of the ACM， 
1987 年 10 月 ,第 34 期 ,第 825 页 。 
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。 有 适应 信息 局 部 性 的 能 力 ， 即 邻近 的 符号 会 对 码 字 的 长 度 有 影响 ， 这 可 以 显著 提高 压 


缩 率 。 


这 三 点 对 于 现代 的 统计 编码 算法 来 说 都 很 重要 。 随 着 数据 量 的 增长 ， 越 来 越 多 的 数据 需 
要 通过 互联 网 传输 ， 同 时 ， 越 来 越 多 的 人 在 移动 设备 上 使 用 数据 ， 而 移动 设备 的 存储 有 


限 ， 套 餐 流量 也 有 限 。 








因此 ， 大 多 数 的 统计 编码 算法 主要 关注 的 是 图 片 (WebP) 和 视频 


(WebM、H.264) 文件 的 压缩 。 


这 对 我 们 来 说 意味 着 ， 如 果 处 理 的 是 少量 的 数据 ， 那 么 简单 的 静态 统计 编码 算法 就 可 以 工 
作 得 很 好 ， 并 且 可 以 让 我 们 以 较 低 的 复杂 度 实现 米 。 如 果 人 处 理 的 是 大 量 的 数据 或 者 多 媒体 
数据 ， 而 且 运 行 时 的 性 能 很 重要 ， 那 么 采用 自 适应 统计 编码 算法 无 疑 是 正确 的 选择 。 

















虽然 信息 论 的 创立 是 在 20 世纪 40 年 代 ， 哈 夫 曼 编码 的 提出 是 在 20 世纪 50 年 代 ， 而 互联 网 
的 出 现在 20 世纪 70 年 代 ， 但 是 直到 20 世纪 80 年 代 ， 数 据 压 缩 才 真 正 引起 了 人 们 的 兴趣 。 


随 着 互联 网 的 快速 发 展 ， 人 们 分 享 的 内 容 已 不 再 局 限于 文字 ， 而 是 开始 分 享 比 文本 大 得 多 
的 照片 以 及 其 他 格式 的 数据 。 同 时 这 种 分 享 又 发 生 在 网 络 带 宽 有 限 、 存 储 昂贵 的 时 期 ， 数 
据 压 缩 因 此 成 了 缓解 这 些 瓶颈 的 关键 。 





随 着 移动 设备 正 日 益 成 为 人 们 访问 互联 网 的 首选 ， 实 际 上 我 们 今天 还 是 过 到 
了 同样 的 瓶颈 。 











虽然 VLC 一 直 都 在 发 挥 作用 ， 但 它 与 糯 绑 定 的 事实 也 限制 了 数据 压缩 未 来 的 发 展 。 因 此 ， 
当 大 多 数 研 究 人 员 在 尝试 寻找 更 有 效 的 VLC 技术 时 ， 也 有 少数 研究 人 员 选 择 了 不 同 的 路 ， 
他 们 找到 了 使 统计 压缩 可 以 更 有 效 地 预 处 理 数据 的 新 方法 。 


这 种 新 方法 通常 被 称 为 “字典 转换 ”(dictionary transforms) ， 它 完全 改变 了 人 们 对 数据 压 
缩 的 认 知 。 突 然 间 ， 压 缩 变 成 了 一 种 对 各 种 类 型 的 数据 都 有 用 的 算法 。 它 的 应 用 范围 非常 
广泛 ， 事实 上 今天 所 有 的 主流 压缩 算法 (比如 GZIP 或 者 7-Zip) 都 会 在 核心 转换 步骤 中 使 
用 字典 转换 。 下 面 来 具体 看 一 看 。 




















注 1: 严格 来 说 ， 只 Peter Elias 一 个 人 就 提出 了 30 多 种 VLC 技术 。 
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7.1 基本 字典 转换 


统计 压缩 主要 关注 数据 流 中 单个 符号 的 出 现 概率 ， 这 一 概率 与 其 周围 可 能 出 现 的 符号 无 
关 。 这 样 做 虽然 可 以 将 7 压缩 为 N 位 数字 ， 但 忽略 了 真实 数据 的 基本 属性 : 上 下 文 及 词语 
的 组 合 ， 或 者 简单 地 说 就 是 短语 。 

















在 其 他 场景 下 也 存在 着 “短语 ”， 比 如 音乐 的 规则 、 图 像 中 的 色彩 构成 或 者 
心脏 的 跳动 。 一 般 来 说 ， 任 何 出 现 可 以 重复 使 用 的 相似 内 容 分 组 的 地 方 ， 都 
会 有 “短语 ”存在 。 

















例如 ， 对 短语 “TO BE OR NOT TO BE”， 不 必 将 每 个 字母 都 当 作 一 个 符号 去 编码 ， 而 将 实 
际 的 英语 单词 当 作 符号 去 编码 。 这 样 一 来 ， 创 建 的 符号 码 字 对 应 表 就 会 如 下 表 所 示 (忽略 
单词 间 的 空格 ) 。” 





符号 频率 码 字 





TO 0.33 00 
BE 0.33 01 
OR 0.16 10 


NOT 0.16 ll 














这 样 编码 后 ， 得 到 的 结果 为 000110110011。 按 原来 的 方式 对 每 个 字母 编码 ， 最 终 的 结果 
需要 104 个 二 进 制 位 ， 而 按 现在 这 种 方式 对 每 个 单词 编码 ， 最 终 的 结果 只 需要 12 个 二 进 
制 位 。 


如 果 考 虑 的 对 象 不 再 是 单个 的 符号 , 而 是 一 组 相 邻 的 符号 ， 我 们 就 走出 了 统计 压缩 的 世界 ， 
来 到 了 字典 转换 的 世界 。 








字典 转换 的 工作 方式 也 正如 你 期 望 的 那样 : 给 定 源 数 据 流 ， 首 先 构建 出 单词 字典 〈 而 不 是 
符 





典 
号 字典 )， 然 后 再 将 统计 压缩 应 用 到 字典 中 的 单词 上 。 
典 


字典 转换 并 非 是 要 去 替代 统计 编码 ， 相 反 ， 它 只 是 你 先 应 用 到 数据 流 上 的 一 个 转换 ， 这 样 
统计 编码 算法 就 能 更 有 效 地 对 其 编码 ， 如 图 7-1 所 示 。 























注 2: 为 什么 这 张 表 中 的 频率 相 加 之 和 不 为 1， 这 是 因为 出 现 了 舍 人 误差 ，1/6 等 于 16.666 66...%。 
注 3: 或 者 更 确切 地 说 ,统计 压 缩 接受 我 们 扔 给 它 处 理 的 任何 符号 ;而 字典 转换 接收 的 是 符号 集 ， 并 重新 定 
义 要 使 用 的 符号 以 减 小 生成 的 数据 流 的 粒 。 
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统计 编码 














图 7-1: 对 源 数据 进行 字典 转换 后 生成 的 数据 流 ， 可 以 由 统计 编码 算法 更 有 效 地 压缩 


因此 ,字典 转换 实际 是 一 个 数据 流 的 预 处 理 阶 段 ， 经 过 这 样 的 预 处 理 后 ， 生 成 的 数据 集会 
更 小 ， 比 源 数据 流 压 缩 率 更 高 。 


当 能 识别 出 那些 经 常 重复 使 用 的 长 字符 串 ， 并 为 它们 分 配 最 短 的 码 字 时 ， 字 典 转换 的 效率 
最 高 


找 出 正确 的 “单词 
“什么 样 的 单词 是 最 佳 的 “单词 “， 这 是 个 大 问题 。 这 里 ， 最 佳 的 “单词 ” 指 的 是 那些 能 
生成 最 小 炉 的 词 。 还 有 一 个 更 大 的 问题 是 ， 怎 样 才能 决定 哪些 词 是 最 佳 的 “单词 ”“。 


前 面 举 的 例子 可 能 太 简单 了 : 通过 空格 就 能 将 “单词 ”分 出 来 ， 一 眼看 过 去 就 能 识别 出 重 
复出 现 的 “单词 。 





那么 ， 下 面 这 个 字符 串 呢 ? 可 能 会 难 一 些 吧 ? 
TOBEORNOTTOBEORTOBEORNOT 


既然 没有 简单 的 办 法 能 将 此 字符 串 中 的 “单词 ”分 出 来 〈 在 不 教 计算 机 学 习 英语 的 情况 
下 )， 怎 样 才能 找 出 其 中 的 “单词 ” 呢 ? 
可 以 通过 被 称 为 分 词 (tokenization) 的 过 程 找 出 这 些 “ 单 词 ”， 即 分 析 一 组 数据 并 从 中 找 
出 理想 的 “单词 "。 分 词 这 一 过 程 相当 复杂 ， 它 本 身 也 是 信息 论 领域 的 一 个 研究 分 支 (并 
有 相关 专利 )。 本 书 将 只 介绍 其 基础 知识 。 


作为 基础 ， 我 们 先 来 看 一 看 ， 如 果 根 据 单个 符号 的 值 也 就 是 “字母 ”去 分 词 ， 示 例 数据 流 
会 是 什么 样子 ， 结 果 如 下 表 所 示 。 

















注 4: 这 里 我 们 使 用 “字母 ”(letter) 和 “单词 ”(word) 这 两 个 术语 分 别 表示 “单个 的 符号 ”和 “多 个 相 
邻 的 字符 ”。 需 要 说 明 的 是 ， 字 典 转 换 可 以 应 用 到 任何 类 型 的 数据 上 ， 而 不 仅仅 是 文本 。 
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TOBEORNOTTOBEORTOBEORNOT 


字母 # 出 现 次 数 


炉 =2.38 














根据 “字母 ”去 分 词 ,， “0” 和 “T” 重复 出 现 次 数 最 多 ， 最 终 得 出 凡 为 2.38。 


得 到 这 个 结果 很 不 错 ， 下 面 尝试 一 下 其 他 方法 。 不 再 用 最 短 的 符号 即 单个 “字母 ”， 而 是 
用 字 串 中 重复 出 现 的 最 长 的 子 串 来 分 词 ， 所 得 结果 如 下 表 所 示 。 





TOBEORNOTIOBEORTOBEORNOT 
最 长 的 字 串 # 出 现 次 数 
炳 =2.5 














其 中 最 长 的 子 串 是 “TOBEORNOT”， 它 在 示例 数据 中 出 现 两 次 。 如 果 为 它 分 配 一 个 单独 
的 码 字 ， 这 样 分 词 后 字符 串 的 炉 约 为 2.5， 比 根据 字母 去 分 词 还 大 ， 因 此 对 这 样 的 数据 来 
说 ， 这 不 是 一 个 好 结果 。 





炉 增加 的 原因 是 ， 分词 之 后 数据 中 没有 明显 出 现 一 个 “单词 ” 占 主导 地 位 的 情况 。 
[0,T,B,E,R,TOBEORNOT] 这 些 “ 单 词 ” 基 本 上 是 等 可 能 出 现 ， 因 此 分 配 的 二 进 制 位 数 也 
大 致 相等 。 


也 可 以 根据 最 常 出 现 的 子 串 去 分 析 ， 这 样 分 词 的 结果 是 TOBEOR 和 NOT 成 为 了 “单词 ”， 
如 下 所 示 。 分 词 后 的 灶 为 2.2， 虽 然 比 前 面 的 结果 好 一 些 ， 但 是 不 能 给 人 留 下 帝 刻印 象 。 








TOBEORNOTIOBEORTOBEORNOT 


最 常 出 现 的 子 串 # 出 现 次 数 


| 加 


因此 ， 不 妨 再 试 试 另 一 种 不 同 的 方法 ， 通 过 找 出 长 度 大 于 1 的 最 短 “ 单 词 ” 来 分 词 ， 如 下 
表 所 示 ，TO、BE、OR 和 NOT 是 切 分 出 来 的 单词 。 分 词 后 的 粹 为 1.98， 这 是 目前 得 到 的 
最 好 结果 。 














TOBEORNOTIOBEORTOBEORNOT 
长 度 大 于 1 的 最 短 "单词 ” 。 # 出 现 次 数 


炉 =1.98 














又 回 到 了 依靠 英语 “单词 ”来 分 析 字 符 串 的 方法 上 。 虽 然 这 样 做 生成 的 粒 最 小 ， 但 是 我 们 
很 难 弄 清楚 怎样 分 析 字 符 串 才能 创建 出 最 佳 大 小 的 “单词 ”。 


一 种 暴力 方法 是 读 取 一 组 符号 (如 “TO”) 并 搜索 字符 串 的 剩余 部 分 来 确定 该 组 符号 的 出 
现 频 次 。 如 有 果 出 现 频次 与 现 有 的 符号 表 匹 配 得 很 好 ， 那 么 算法 就 继续 读 取 下 一 组 符号 并 重 
复 这 一 过 程 。 否 则 ， 算 法 就 会 尝试 读 取 一 组 不 同 的 符号 (比如 “TOB”)。 可 惜 的 是 ， 对 所 
有 真实 的 数据 流 而 言 ， 这 样 做 不 仅 需 要 大 量 的 内 存 ， 同 时 还 需要 花费 很 长 的 时 间 。 因 此 ， 
它 不 适用 于 任何 类 型 的 实时 处 理 。 


真相 是 ， 为 了 找到 数据 流 的 理想 分 词 ， 我 们 需要 有 某 种 方法 来 处 理 现 有 的 和 那些 还 没有 巡 
到 的 符号 ， 并 能 以 一 种 高 效 的 方式 将 两 者 合并 为 尽 可 能 长 的 符号 集 。 


7.2 LZ 算法 


1977 年 ， 两 位 研究 人 员 Abraham Lempel 和 Jacob Ziv 提出 了 几 种 解决 “理想 分 词 ” 问 题 的 
方法 。 这 些 算法 根据 提出 的 年 份 分 别 被 命名 为 LZ77 和 LZ78， 它 们 在 找 出 最 佳 分 词 方面 非 
常 高 效 ，30 多 年 来 还 没有 其 他 算法 可 以 取代 它们 。 








走 近 Lempel 和 Ziv 
在 数据 压缩 领域 ，Lempel 和 Ziv 两 人 堪 称 “ 双 壁 ”。 


Jacob Ziv 大 学 毕业 于 以 色 列 理工 学 院 ， 随 后 于 1961 年 获得 了 麻 省 理工 学 院 信 息 论 专 
业 的 博士 学 位 。Ziv 对 通信 工程 领域 充满 热情 ， 之 所 以 选择 在 麻 省 理工 攻读 博士 学 位 ， 
是 因为 看 到 该 领域 的 顶 炎 学 者 克 劳 德 . 香 农 、Peter Elias 和 Bob Gallager 都 齐 聚 在 这 
里 ， 他 也 想来 到 这 一 领域 的 世界 研究 中 心 。 博 士 毕业 后 ，Ziv 在 贝尔 实验 室 工作 了 一 
段 时 间 ， 之 后 回 到 以 色 列 理工 学 院 成 为 了 一 名 教授 。 


Abraham Lempel 也 有 类 似 的 故事 。 他 在 以 色 列 理工 学 院 获得 了 学 士 、 硕 士 和 博士 学 
位 ， 之 后 成 为 了 该 校 的 一 名 教授 并 在 这 里 遇 到 了 Ziv， 从 此 开启 了 信息 理论 研究 工作 
的 生涯 。 

Lempel 和 Ziv 在 信息 理论 领域 做 出 了 巨大 的 贡献 ， 并 因此 在 1997 年 获得 了 IEEE 信息 
理论 学 会 的 香农 奖 (Claude E. Shannon Award ) 。 


由 Lempel 和 Ziv 提出 的 LZ77 和 L278 算法 产生 了 一 系列 的 衍生 算法 ， 包 括 GIF 图 
像 格式 中 使 用 的 LZW ( 即 Lempel-Ziv-Welch) 算法 ， 应 用 于 7-Zip、xz 等 压缩 工具 的 
LZM ( 即 Lempel-Ziv-Markov chain) 算法 。 这 些 算法 也 同样 应 用 于 DEFLATE 这 样 的 
压缩 算法 中 ,而 DEFLATE 又 应 用 于 PNG 图 像 格 式 、PKZIP、GZIP 等 压缩 工具 及 zlib 
库 中 。 

如 果 你 有 兴趣 知道 完整 的 故事 ， 不妨 看 一 看 视频 Compressor Head，。 











7.2.1 LZ 算法 的 工作 原理 

LZ 算法 尝试 通过 在 读 取 的 字符 串 中 寻找 当前 单词 的 匹配 来 分 词 。 与 读 取 一 组 符号 然后 向 
后 查找 它 是 否 重复 出 现 不 同 ，LZ 算法 向 前 查找 当前 单词 是 否 出 现 过 。 这 样 做 会 对 编码 过 
程 产生 如 下 两 个 重要 影响 ( 见 图 7-2)。 

















TOBEORNOTIOBEORTOBEORNOT 





由 F、 
A‘ ~ i 
7 \ ~ 
最 初 的 符号 由 于 没有 \ 我 们 也 能 找 出 
前 面 的 匹配 ， 往 往 会 最 长 前 向 匹配 


单独 成 记 

a 随 着 我 们 一 直 向 后 
读 ， 发 现 已 有 单词 
的 还 本 更 容易 











7-2: LZ 算法 向 前 查找 最 长 前 向 匹配 单词 
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。 在 数据 流 的 前 半 部 分 ， 由 于 我 们 见 过 的 单词 很 少 ， 因 此 出 现 新 单词 的 可 能 性 很 大 ， 而 在 
数据 流 的 后 半 部 分 ， 由 于 已 经 有 了 很 大 的 缓冲 区 ， 因 此 出 现 匹 配 的 可 能 性 更 大 。 
向 前 寻找 匹配 可 以 让 我 们 找 出 “最 长 的 匹配 词 ”。 


1. 搜索 缓冲 区 
LZ 算法 的 工作 原理 是 将 数据 流 分 成 如 下 两 部 分 。 
































。 数据 流 的 左 半 部 分 通常 被 称 为 “搜索 缓冲 区 ”(search buffer)， 包 含 的 是 已 经 读 过 并 处 
理 过 的 符号 。 
。 数据 流 的 右 半 部 分 则 被 称 为 “先行 缓冲 区 ”(look ahead buffer) ,包含 的 是 将 要 编码 的 符号 。 





因此 ， 当 前 “ 读 取 ”的 位 置 就 位 于 两 个 缓冲 区 之 间 ， 如 图 7-3 所 示 。 








当前 的 位 置 
搜索 缓冲 区 先行 缓冲 区 
(已 处 理 过 ) (未 处 理 过 ) 


TOBEORNOTITOBE 














7-3: 搜索 缓冲 区 和 先行 缓冲 区 被 当前 读 取 的 位 置 分 开 


2. 找 出 匹配 
找 出 匹配 其 实 就 是 搜索 缓冲 区 与 先行 缓冲 区 之 间 一 种 有 机 的 相互 作用 。 

















图 7-4 到 图 7-9 展示 了 找 出 匹配 的 过 程 。 








当前 的 位 置 


搜索 缓冲 区 先行 缓冲 区 
(已 处 理 过 ) (未 处 理 过 ) 


oeonnonfiooe 


7-4: 从 当前 位 置 读 取 一 个 符号 T 




















搜索 缓冲 区 先行 缓冲 区 
(已 处 理 过 ) (未 处 理 过 ) 
这 里 找到 








了 匹配 。 当前 的 "单词 





图 7-5: 从 搜索 缓冲 区 往 前 查找 ， 看 到 的 第 一 个 符号 T 就 匹配 上 了 








搜索 缓冲 区 先行 缓冲 区 
(已 处 理 过 ) (未 处 理 过 ) 


TOBEORNOTITOBET 


人 T 找 到 了 ， 但 是 
“TO" 没 有 找到 
当前 的 单词 : “TO 











图 7-6: 由 于 要 找到 的 是 可 能 的 最 长 匹配 ， 现 在 从 先行 缓冲 区 中 读 取 第 二 个 符号 ， 其 值 为 9 





搜索 缓冲 区 先行 缓冲 区 
(已 处 理 过 ) (未 处 理 过 ) 


TOBEORNOTITOBET 


| 


在 这 里 找 当前 的 
到 了 “TO” 单词 :“TO” 











图 7-7: 由 于 搜索 缓冲 区 中 找到 的 匹配 T 后 没有 出 现 O， 因 此 需要 继续 往 前 查找 ， 直 到 最 终 找到 TO 





搜索 缓冲 区 先行 缓冲 区 
(已 处 理 过 ) (未 处 理 过 ) 
TOBEORNOTITOBET 

在 这 里 找到 当前 的 音 
7 了 "TOBE” 词 :“TOBE” 











图 7-8: 现在 读 下 一 个 符号 B， 仍 能 找 出 匹配 ， 继 续 读 下 一 个 符号 E， 还 是 能 找 出 匹配 ， 但 当 接 着 读 
下 一 个 符号 T 时 ， 就 找 不 到 匹配 了 ， 因 此 找 出 了 这 个 符号 序列 的 最 长 匹配 





搜索 缓冲 区 先行 缓冲 区 


TOBEORNOTTOBEIT... | 











图 7-9: 对 找 出 的 匹配 编码 (具体 描述 见 下 一 节 ) 并 将 “当前 位 置 ” 移 到 先行 缓冲 区 中 最 长 匹配 单词 
后 ， 继 续 重复 这 一 过 程 
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3.“ 滑 动 窗口 ” 

然而 ， 在 实际 实现 时 ， 数 据 流 中 可 能 有 上 百 万 个 词 条 ， 我 们 不 可 能 去 搜索 所 有 处 理 过 的 符 
号 。 因 为 如 果 不 对 搜索 缓冲 区 的 长 度 加 以 限制 ， 就 会 遇 到 内 存 及 性 能 方面 的 问题 ， 所 以 搜 
索 缓 冲 区 通常 只 会 包含 32 KB 已 经 处 理 过 的 字符 。 因 此 ， 当 移动 当前 位 置 时 ， 搜 索 缓冲 区 
的 “滑动 窗口 ”(sliding window) 也 会 跟着 移动 ， 如 图 7-10 所 示 。 
































新 的 当前 位 置 
新 的 搜索 缓冲 区 由 和 Fe 区 


图 7-10: 在 找 出 匹配 并 编码 后 ， 将 “当前 位 置 ” 移 到 先行 缓冲 区 中 最 长 匹配 单词 过 后 ， 此 时 滑动 窗 
口 也 会 跟着 移动 到 新 的 当前 位 置 


有 了 请 动 窗口 ， 查 找 匹 配 的 性 能 要 求 也 就 有 了 上 限 。 它 同样 也 芳 虑 到 了 局 部 性 原理 ， 即 在 
给 定 的 数据 集中 相关 的 数据 很 可 能 分 布 在 相似 的 局 部 区 域 。 



































一 般 来 说 ， 搜 索 缓 冲 区 请 动 窗口 的 长 度 大 概 为 几 万 个 字 节 ， 而 先行 缓冲 区 的 
长 度 则 只 有 几 十 个 字 节 。 








4. 用 记号 标记 匹配 
当 匹 配 最 终 确 定 下 来 ， 编 码 器 就 会 生成 一 个 固定 长 度 的 记号 并 将 它 写 入 输出 流 。 该 记号 主 
要 由 两 部 分 组 成 : 偏 移 量 和 长 度 。; 
口 偏 移 量 
该 值 表示 的 是 搜索 缓冲 区 中 匹配 单词 的 起 始 位 置 ， 从 当前 位 置 向 前 数 。 在 前 面 举 的 例子 
中 ， 匹 配 的 字符 串 需要 从 当前 位 置 往 前 数 9 个 字符 。 


口 长 度 值 
该 值 表示 的 是 匹配 单词 的 长 度 。 在 本 例 中 ， 匹 配 单词 的 长 度 为 4 ( 即 包 含 4 个 符号 ) 。 




















具体 到 本 例 中 ， 找 到 的 匹配 位 于 当前 位 置 9 个 符号 前 ， 且 其 长 度 为 4， 因 此 将 二 元 组 [9,4] 
写 入 输出 流 ， 如 图 7-11 所 示 。 



































注 5: 值得 注意 的 是 ， 在 最 初 提出 LZ77 和 LZ78 算法 的 论文 中 ， 该 记号 其 实 是 一 个 三 元 组 ， 第 三 个 值 是 先 
行 缓冲 区 中 的 下 一 个 符号 ， 它 在 解码 时 有 助 于 符号 处 理 和 恢复 。 不 过 ， 现 代 大 多 数 的 LZ 系列 算法 已 
不 需要 第 三 个 值 了 ， 因 此 通常 我 们 会 忽略 它 。 
































字典 转换 | 91 








搜索 缓冲 区 先行 缓冲 区 


TOBEORNOTITOBE 








图 7-11: 位 于 先行 缓冲 区 中 与 搜索 缓冲 区 中 符号 匹配 上 的 单词 ， 它 与 匹配 符号 的 偏 移 量 与 长 度 值 编码 
解码 器 会 以 非常 简单 的 方法 逆转 换 这 些 值 ; 

(1) 读 取 下 一 个 词 条 ， 

(2) 以 当前 位 置 为 起 点 ， 在 搜索 缓冲 区 中 往 前 数 偏 移 量 个 符号 ， 

(3) 抓 取 长 度 值 个 符号 并 添加 到 数据 流 后 面 。 

5. 没有 找到 匹配 时 


在 一 些 情况 下 ， 无 法 在 搜索 缓冲 区 中 找到 先行 缓冲 区 中 出 现 符号 的 匹配 。 这 种 情况 下 ， 需 
要 输出 一 些 信息 来 表示 这 个 新 出 现 的 单词 ， 这 样 解码 器 才能 正确 地 还 原 它 。 














Pe 


因此 ， 需 要 对 输出 的 记号 进行 修改 ， 表 明 输 出 的 是 字面 值 ， 这 样 解码 器 就 能 读 取 并 恢复 源 
数据 流 。 不 过 ， 怎 样 构 造 该 记号 完全 取决 于 具体 的 LZ 算法 实现 。 一 种 最 基本 的 做 法 是 ， 
将 修改 后 的 记号 表示 为 三 部 分 ， 前 两 部 分 与 前 面 介绍 的 相同 ， 还 是 偏 移 量 和 长 度 值 ， 只 不 
过 取 值 都 为 0， 即 [0,0], 最 后 一 部 分 则 是 符号 的 字面 值 ， 如 图 7-12 所 示 。 



















































































搜索 缓冲 区 先行 缓冲 区 
TOBEORINOT 
没有 匹配 上 的 符号 的 记号 

| 俩 移 量 | 长度 值 | 字面 值 

0 0 IN | 
图 7-12: 没有 匹配 上 的 符号 的 记号 与 前 面 介绍 的 不 同 ， 为 了 方便 解码 器 的 读 取 ， 记 号 中 通常 会 包含 

符号 的 字面 值 

7.2.2 ”编码 


以 字符 串 “TOBEORNOTTOBE” 为 例 ， 走 一 遍 编码 的 过 程 (同时 也 请 参见 随后 的 表格 )。 








(1) 开始 的 4 个 符号 在 搜索 缓冲 区 找 不 到 匹配 ， 直 接 输 出 字面 值 记号 。 
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(2) 当 在 先行 缓冲 区 中 读 到 第 二 个 “0” 时 ， 我 们 在 搜索 缓冲 区 找到 一 个 单个 











此 输出 记号 (3,1)。 
(3) 继续 这 一 过 程 ， es 


E> 














值 的 匹配 ， 因 








(4) 当 读 到 字符 串 的 结尾 时 ， 情 得 有 意思 起 来 ， 我 们 发 现在 搜索 缓冲 
i ey 


下 表 展 示 了 整个 编码 过 程 。 





搜索 缓冲 区 先行 缓冲 区 输出 
TOBEORNOTTOBE 0,0,T 
T OBEORNOTTOBE 0,0,0 
TO BEORNOTTOBE 0,0,B 
TOB EORNOTTOBE 0,0,E 
TOBE ORNOTTOBE 3 
TOBEO RNOTTOBE 0,0,R 
TOBEOR NOTTOBE 0,0,N 
TOBEORN OTTOBE 3;1 
TOBEORNO TTOBE 8,1 
TOBEORNOT TOBE 9,4 
<eos> 
7.2.3 解码 


整个 解码 过 程 全 靠 读 取 输 入 的 记号 。 
。 当 解 码 器 读 到 字面 值 记号 时 ， 就 将 该 值 输出 到 恢复 缓冲 区 ，; 











区 的 最 开 


始 找到 


。 当 解 码 器 读 到 “匹配 ”的 记号 时 ,会 从 当前 的 位 置 往 前 数 偏 移 量 个 符号 ， 以 此 为 起 点 将 

















长 度 值 个 符号 添加 到 恢复 缓冲 区 的 结尾 。 有 具体 过 程 如 下 表 所 示 。 
输入 的 记号 恢复 缓冲 区 
0,0,T 
0,0,0 T 
0,0,B TO 
0,0,E TOB 
3,1 TOBE 
0,0,R TOBEO 
0,0,N TOBEOR 
3,1 TOBEORN 
8,1 TOBEORNO 
9,4 TOBEORNOT 


<eos> TOBEORNOTTOBE 





看 明白 了 吗 ? 还 是 很 简单 的 吧 ? 


7.2.4 ”压缩 LZ 算法 的 输出 

很 容易 看 出 ， 经 过 LZ 变换 后 所 生成 的 编码 后 的 数据 流 比 源 数据 流 小 。( 在 本 书 中 ， 我 们 
认为 任何 用 2 个 符号 的 记号 去 替换 12 个 符号 的 单词 的 机 会 都 是 一 种 胜利 。") 对 那些 有 很 
多 重复 单词 的 数据 流 来 说 ， 你 可 以 用 小 得 多 的 记号 对 它 进行 编码 ， 这 就 是 LZ 算法 吸引 人 的 
地 方 。 

然而 还 不 止 如 此 ，LZ 算法 真正 吸引 人 的 地 方 还 在 于 它 可 以 和 统计 编码 结合 使 用 。 可 以 将 


记号 中 的 偏 移 量 、 长 度 值 以 及 字面 值 分 开 后 ， 再 按照 类 型 合并 ， 组 成 单独 的 偏 移 量 集 、 长 
度 值 集 和 字面 值 集 ， 然 后 再 对 这 些 数 据 集 进行 统计 压缩 。 







































































例如 ， 可 以 将 前 面 例子 输出 的 记号 集 [0,0,T][0,0,O][0,0,B][0,0,E][3,1][0,0,R][0,0,N][3,1][8,1] 
[9,4] 分 成 以 下 3 个 数据 集 。 











偏 移 量 集 0,0,0,0,3,0,0,3,8,9 
长 度 值 集 0,0,0,0,1,0,0,1,1,4 
字面 值 集 T,O,B,E,R,N 


这 三 个 数据 集 的 性 质 不 同 ， 相 应 的 处 理 方法 也 不 同 。 


1. 偏 移 量 集 

首先 ， 我们 知道 偏 移 量 永远 都 是 在 [0, 习 这 个 范围 之 内 ， 其 中 并 是 搜索 缓冲 区 的 长 度 值 。 
在 最 坏 的 情况 下 ， 偏 移 量 也 可 以 用 lbCo 位 来 编码 ， 这 就 允许 我 们 对 请 动 窗口 内 的 任意 字 
节 进 行 索引 。 

不 幸 的 是 ， 偏 移 量 的 取 值 很 分 散 ， 因 此 对 于 大 的 数据 流 来 说 ， 偏 移 量 集中 不 会 存在 很 多 重 
复 的 内 容 。 不 过 即使 这 样 ， 进 行 统计 编码 后 仍然 可 能 会 产生 较 好 的 结果 。 例 如 ， 举 的 例子 
中 偏 移 量 集 的 烂 为 1.57， 但 要 知道 ， 随 着 数据 集 变 大 ， 情 况 会 变 坏 。 最 坏 的 情况 就 是 在 搜 
索 缓冲 区 中 到 处 都 存在 匹配 ， 这 样 一 来 ， 偏 移 量 集中 的 每 个 值 都 不 相同 。 


2. 长 度 值 
长 度 值 也 存在 着 类 似 的 问题 。 它 们 可 以 取 任 何 值 ， 因 此 唯一 的 希望 就 是 利用 重复 符号 通过 
统计 编码 算法 来 进一步 压缩 数据 。 长 度 值 的 分 布 取决 于 输入 流 的 内 容 以 及 语言 的 类 型 。 例 
如 ， 如 果 要 编码 的 是 一 本 用 英语 写 的 书 ， 那 么 长 度 值 中 出 现 最 多 的 就 会 是 2、3 或 者 4。 具 
体 到 前 面 举 的 例子 ， 长 度 值 的 业 为 1.30， 也 就 是 说 约 需 要 13 个 二 进 制 位 来 对 这 些 长 度数 
据 进行 编码 。 



























































注 6: 作为 作者 ， 这 是 我 们 写 的 书 ， 因 此 我 们 总 是 在 赢 。 
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3. 字面 值 集 

对 我 们 举 的 这 个 小 例子 来 说 ， 与 偏 移 量 集 和 长 度 值 相 比 ， 字 面值 集 好 像 也 没有 什么 更 好 的 

压缩 方法 。 不 过 ， 随 着 输入 流 增 大 ， 由 于 可 能 会 存在 重复 的 字面 值 〈 这 是 因为 有 滑动 窗 
口 )， 因 此 字面 值 流 的 箭 也 会 略微 变 小 。 当 然 ， 这 种 情况 是 否 会 发 生还 取决 于 搜索 缓冲 区 

的 大 小 。 例 如 ， 如 末 输 入 流 中 存在 两 个 符号 B， 但 是 被 32 000 个 其 他 符号 隔 开 ， 由 于 隔 得 

太 远 ， 这 两 个 符号 B 也 就 匹配 不 上 。 因 此 ， 字 面值 流 中 会 出 现 两 个 符号 B 


7.2.5 ”LZ 算法 的 变 体 

LZ 算法 很 强大 ， 让 人 印象 深刻 ， 但 同样 令 人 印象 深刻 的 还 有 过 去 40 多 年 来 出 现 的 该 算法 
的 变 体 数量 ( 见 图 7-13)。 每 一 种 变 体 都 是 根据 特殊 的 需要 ee a 
不 同 ， 对 LZ77 基本 算法 进行 了 一 些小 调整 。 下 面 选择 一 些 重要 的 加 以 介 ， 剩 下 的 算法 
有 待 你 自己 去 探索 。 
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7-13: L277 与 L278 系列 算法 的 谱系 图 ， 图 中 展示 了 这 两 个 算法 的 各 种 变 体 以 及 它们 的 提出 年 份 


1. L277 
LZ77 基本 算法 (有 时 也 被 称 为 LZ1 算法 ) 的 工作 原理 ， 与 前 面 介绍 的 大 致 相同 。 唯 一 的 
区 别 是 ， 它 会 将 先行 缓冲 区 中 下 一 个 符号 的 字面 值 作为 第 三 个 值 输出 。 






























































2. LZSS 

L277 与 LZSS 的 主要 差别 是 : 在 L277 算法 中 ， 字 典 引 用 可 能 会 比 其 替换 的 字符 串 还 长 ; 
而 在 LZSS 中 ， 如 果 被 替换 的 字符 串 长 度 值 小 于 “ 收 支 平 衡 ” 点 ， 那 么 这 样 的 引用 就 会 被 
忽略 。 此 外 ，LZSS 还 会 用 一 个 标志 位 来 区 分 后 面 的 数据 是 字面 值 还 是 偏 移 量 - 长度 值 二 
元 组 这 样 的 引用 。 



































很 多 流行 的 压缩 工具 比如 PKZip、ARJ、RAR、ZOO 和 LHarc 使 用 LZSS 算法 ， 并 将 其 作 
为 主要 的 压缩 算法 。 值 得 一 提 的 是 ，Game Boy Advance 游戏 机 的 BIOS 就 自 带 解码 改进 后 
的 LZSS 格式 补丁 等 功能 。 





3. LZ78 或 LZ2 

LZ 算法 系列 的 核心 算法 最 早 发 表 于 1977~1978 年 ， 这 两 种 算法 有 时 也 被 称 为 LZ1 算法 和 
LZ2 算法 。LZ78 算法 的 工作 原理 与 前 面 描述 的 基本 相同 ， 不 过 它 不 用 距 搜 索 缓 冲 区 结尾 
的 偏 移 量 来 指示 匹配 的 位 置 ， 而 是 根据 输入 流 创 建 字典 然后 再 引用 。 


4. LZW 算法 
LZW (Lempel-Ziv-Welch) 算法 是 由 Terry Welch 于 1984 年 提出 的 ， 它 采用 了 LZ78 算法 
的 思想 ， 其 工作 原理 如 下 。 





























(1) LZW 算法 将 字典 初始 化 为 包含 所 有 可 能 的 输入 字符 ， 如 果 用 到 了 清空 和 停止 符号 
(clear and stop codes) ， 那 么 这 两 个 符号 也 包括 在 其 中 。 

(2) 该 算法 扫描 输入 字符 串 以 寻找 更 长 的 连续 子 串 ， 直 到 它 发 现 该 子 串 在 字典 中 不 存在 。 

(3) 当 发 现 这 样 的 子 串 时 ， 去 掉 它 的 最 后 一 个 符号 (这样 它 就 变 成 当前 字典 中 最 长 的 子 
串 ) ， 然 后 从 字典 中 找 出 甚 索引 并 输出 。 

(4) 将 该 子 串 〈 此 时 包括 最 后 一 个 符号 ) 加 入 字典 作为 新 的 词 条 。 

(5) 将 该 子 串 的 最 后 一 个 符号 作为 起 点 ， 重 新 扫描 下 一 个 子 串 。 


用 这 种 方法 ， 连 续 更 长 的 子 串 就 会 作为 新 的 词 条 加 入 字典 ， 同 时 也 让 后 续 字 符 串 编码 为 单 
值 输出 成 为 可 能 。 该 算法 最 适用 于 那些 连续 出 现 重 复 的 数据 ， 因 为 在 数据 的 初始 部 分 ， 基 
本 看 不 到 什么 压缩 ,但 是 随 着 数据 的 增多 ， 压 缩 率 逐渐 趋 于 最 大 值 。 

LZW 算法 成 为 首 个 在 计算 机 中 广泛 采用 的 通用 数据 压缩 方法 。 公 共 领 域 程序 “compress” 
也 采用 了 LZW 算法 ， 并 在 1986 年 前 后 就 基本 成 为 UNIX 系统 的 标准 应 用 程序 。 此 后 ， 
“compress” 就 从 很 多 UNIX 分 发 中 消失 了 ， 一 方面 是 因为 它 侵 犯 了 LZW 的 专利 权 ， 男 一 
方面 是 因为 GZIP 的 压缩 率 更 高 (GZIP 使 用 的 是 基于 LZ77 的 DEFLATE 算法 )。 


7.3 尽 可 能 多 地 收集 数据 


这 里 我 们 想 指出 的 是 ， 潜 在 的 输入 数据 集 的 量 是 很 大 的 ， 而 每 个 数据 集 都 可 能 以 一 种 特殊 
的 方式 去 响应 一 种 算法 。 对 数据 集 越 了 解 ， 你 就 越 能 从 中 选择 出 最 适合 的 LZ 变换 。 
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在 开始 本 章 内 容 前 ， 我 们 先 花 一 些 时 间 回顾 一 下 前 面 的 内 容 。 


统计 编码 算法 工作 时 会 为 每 个 符号 分 配 一 个 长 度 可 变 的 码 字 ， 压 缩 主 要 来 自 于 为 越 频 营 
出 现 的 符号 分 配 越 短 的 码 字 。 而 字典 转换 的 分 词 过 程 会 识别 出 数据 集中 最 长 且 最 频 紫 出 
现 的 那些 符号 。 实 际 上 ， 只 有 分 词 过 程 找 出 了 那些 最 适合 的 符号 ， 编 码 的 效率 才能 提高 。 
从 技术 上 来 说 ， 我 们 完全 可 以 通过 分 词 过 程 识别 出 那些 最 适合 编码 的 符号 ， 然 后 再 将 所 
得 结果 交 给 统计 编码 算法 处 理 以 得 到 压缩 的 效果 。 然 而 ，LZ 算法 的 真正 威力 体现 在 我 们 
没有 那样 去 做 ， 而 是 用 粒 值 较 低 的 记号 二 元 组 来 表示 匹配 的 信息 ， 然 后 再 去 压缩 这 些 记 
号 二 元 组 。 


























除了 字典 变换 之 外 ， 还 有 一 整套 其 他 的 变换 都 是 按照 同样 的 原理 工作 的 : 给 定 一 组 相 邻 的 
符号 集 ， 对 它们 进行 某 种 方式 的 变换 使 其 更 容易 压缩 。 我 们 通常 称 这 样 的 变换 为 “上 下 文 
变换 ”(contextual transform ) ， 因 为 在 思考 数据 的 理想 编码 方式 时 ， 这 些 方法 券 虑 到 了 邻近 
符号 的 影响 。 

这 些 变换 的 目标 是 一 致 的 ， 即 通过 对 这 些 信息 进行 某 种 方式 的 变换 ， 使 统计 编码 算法 对 其 
进行 压缩 时 更 高 效 。 

变换 数据 的 方法 有 很 多 种 ， 但 其 中 有 3 种 对 现代 的 数据 压缩 来 说 最 为 重要 ， 即 行程 编码 


(run-length encoding，RLE)、 增 量 编码 (delta coding) 和 伯 罗 斯 - 惠 勒 变换 (Burrows-Wheeler 
transform，BWT) 。 





下 面 分 别 介绍 这 3 种 方法 。 
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8.1 RLE 


RLE 是 过 去 40 多 年 来 看 似 很 简单 、 实 则 很 高 效 的 编码 技术 之 一 ， 适 用 于 各 种 类 型 的 数 
据 。RLE 主要 针对 的 是 连续 出 现 的 相同 符号 聚 类 的 现象 ， 它 会 用 包含 符号 值 及 甚 重复 出 现 
次 数 的 元 组 ， 来 替换 某 个 符号 一 段 连 续 的 “行程 ”(run)。 例 如 ， 如 图 8-1 所 示 ， 字 符 串 
AAAABBBBBBBBCCCCCCCC 就 可 以 编码 为 [A,4][B,8][C,8]。， 




















AAAABBBBBBBBCCCCCCCC 
1 8 8 





输出 的 二 元 组 : (A,4)(B,8),(C,8) 











图 8-1: RLE 在 识别 符号 流 中 相同 符号 的 行程 (连续 出 现 的 相同 符号 )， 它 会 将 这 样 的 数据 流转 换 为 
包含 符号 值 及 其 长 度 值 的 二 元 组 

从 概念 层面 来 说 ，RLE 就 是 这 么 简单 ， 没 有 什么 特别 之 处 。 编 码 工 作 就 是 找到 一 个 符号 并 

向 前 扫描 看 看 其 行程 有 多 长 。 


解码 工作 则 相反 ， 给 定 某 个 符号 值 及 其 长 度 值 的 二 元 组 ， 只 需要 将 正确 个 数 的 符号 添加 到 
输出 流 之 后 就 行 了 。 
































8.1.1 ”处理 短 行程 问题 

然而 ， 并 非 所 有 的 数据 都 像 前 面 举 的 例子 那样 规律 一 致 。 根 据 RLE 的 算法 ， 字 符 串 
AAAABCCCC 会 被 编码 为 [A,4][B,1][C,4]。 由 于 字符 串 中 间 只 有 1 个 B， 因 此 编码 后 B 由 
一 个 字符 变 成 字符 及 其 长 度 值 的 二 元 组 ， 反 而 变 大 了 ， 如 图 8-2 所 示 。 





























AAAABBBKQFBBBMBBLCCT 
一 


nn 
4 3111312121 
输出 的 二 元 组 : 


[A,AIIB,31[K, IQ TE, TCB,3IM, TILB,21L, TH[C2LTD 











8-2: 短 行程 是 RLE 作为 一 种 算法 面临 的 大 问题 。 存 储 短 行程 的 开销 极 大 地 影响 了 数据 压缩 后 的 
大 小 ， 本 图 就 是 很 好 的 例子 ， 很 多 并 非 重复 出 现 的 符号 让 输出 变 大 了 很 多 





注 1: 根据 现 有 的 计算 机 科学 课程 及 维基 百科 ，RLE 通常 不 会 用 上 面 这 样 成 对 的 记号 来 表示 ， 而 是 将 
A4B1C4 这 样 的 符号 值 及 其 长 度 放 在 一 起 来 表示 。 然 而 ， 由 于 符号 与 数值 会 交替 出 现 ， 因 此 实际 上 没 
有 人 会 使 用 这 种 形式 的 RLE， 介 绍 这 种 形式 纯 属 浪费 时 间 。 很 抱 菊 ， 让 你 分 散 注意 力 来 看 这 个 脚注 。 
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如 有 果 幸 和 运 的 话 ， 那 么 存储 这 些 单独 出 现 的 符号 的 开销 ， 很 容易 就 被 存储 那些 长 行程 的 符号 
所 市 省 的 空间 抵消 了 。 





如 果 是 其 他 情形 ， 就 需要 辨别 出 那些 用 RLE 算法 编码 后 反而 变 大 的 符号 ， 对 这 类 符号 ， 可 
能 需要 将 它们 单独 留 在 数据 流 中 。 例 如 ， 可 以 只 对 那些 行程 长 度 大 于 2 的 符号 编码 。 








有 了 这 样 的 假定 ， 字 符 串 AAAABCCCC 就 可 以 编码 为 [A,4]B[C,4]。 因 此 ， 如 果 很 
多 字符 不 是 连续 重复 出 现 ， 就 没 必 要 使 用 计数 器 。 这 样 处 理 带 来 的 问题 是 ， 解 码 时 
很 可 能 会 出 现 歧义 。 如 果 将 编码 后 的 数据 流转 换 为 二 进 制 ， 那 么 最 终 得 到 的 结果 为 
100000110010000101000011100“， 这 样 就 无 法 分 清 字符 B 从 哪里 结束 以 及 字符 C 从 哪里 开 
始 。 一 般 来 说 ， 数 据 流 中 交错 出 现 字面 值 是 会 出 问题 的 。° 























因此 ， 需 要 有 一 种 方法 来 区 分 哪些 字符 编码 后 是 二 元 组 哪些 字符 不 是 。 通 常 采用 的 方法 
是 ， 在 数据 集中 增加 一 个 二 进 制 位 流 ， 来 表示 某 个 给 定 的 符号 流 中 各 个 符号 是 否 连续 重复 
出 现 〈( 见 图 8-3)。 因 此 ， 要 在 100000110010000101000011100 之 前 加 上 二 进 制 位 流 101， 
它 表示 第 一 个 符号 连续 重复 出 现 ， 第 二 个 符号 没有 连续 重复 出 现 ， 第 三 个 符号 又 连续 重复 
出 现 。 这 样 ， 通 过 为 每 个 行程 (符号) 增加 1 个 二 进 制 位 的 标志 位 ， 就 节省 了 存储 短 行程 
所 需 的 额外 开销 。 





























行程 控制 : 101 行程 控制 标志 为 0 表示 此 字面 什 
没有 任何 行程 信息 ， 即 单独 出 现 








编码 后 的 二 进 制 位 流 : 1000001 100 1000010 1000011 100 


图 8-3: 有 了 另外 的 二 进 制 位 流 表示 哪些 字面 值 是 行程 ， 就 能 正确 地 解码 了 。 在 这 个 例子 中 ， 第 二 个 
字面 值 对 应 的 行程 控制 为 0， 说 明 不 用 继续 读 后 面 表示 行程 长 度 的 3 个 二 进 制 位 数据 

重要 提示 

RLE 算法 最 适用 于 大 多 数 符号 都 连续 重复 出 现 的 数据 集 。 如 果 要 处 理 的 数据 

集 没有 这 样 的 性 质 ， 那 么 RLE 算法 并 不 适用 。 你 可 能 需要 继续 学 习 本 书后 

面 关 于 MTF 或 增 量 编码 的 内 容 。 


8.1.2 ”压缩 
压缩 RLE 算法 输出 的 结果 需要 一 些 技巧 。 首 先 ， 需 要 将 数据 集 分 成 两 部 分 : 字面 值 流 和 行 
程 长 度 流 。( 还 记得 加 到 最 前 面 的 二 进 制 位 流 吗 ? 它 会 告诉 我 们 解码 时 需要 从 哪个 流 中 读 















































注 2: 如 果 你 认真 观察 ， 就 会 发 现 每 个 字面 值 都 是 7 位 的 ASCI 码 ， 因 此 整个 二 进 制 串 的 正确 划分 为 10000 
01|100|1000010|1000011|100。 
注 3: 要 使 用 自 适应 统计 编码 和 字典 转换 算法 ， 这 就 是 必须 要 解决 的 问题 ， 可 以 说 如 果 在 数值 流 中 有 字面 值 
交错 出 现 ， 那 就 是 自 找 麻烦 。 
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取 数 据 。) 对 字面 值 流 , 可 以 根据 自己 的 意愿 选择 一 种 编码 器 “, 剩 下 的 行程 长 度 流 才 是 压缩 
问题 的 真正 所 在 。 因 此 ， 下 面 将 使 用 试 错 这 种 非常 现实 的 方法 ， 为 行程 长 度 流 找 到 合适 的 
编码 。” 














给 定 行程 长 度 流 [4,3,1,1,1,3,1,2,1,2,1]， 可 以 用 2 个 二 进 制 位 对 每 个 长 度 值 进行 二 进 制 编 码 ， 
所 有 这 些 值 共 需要 22 个 二 进 制 位 。 不 过 ， 如 果 遇 到 其 中 某 个 长 度 值 特别 大 的 情况 ， 例 如 
[256,3,1,1,1,3,1,2,1,2,1]， 这 种 方法 就 不 适用 了 。 这 种 情况 下 ， 每 个 长 度 值 编 码 时 所 需 的 二 
进 制 位 数 都 与 集合 中 最 大 值 的 位 数 相等 ， 也 就 是 说 编码 每 个 值 都 需要 8 个 二 进 制 位 ， 总 共 
需要 88 个 二 进 制 位 。 这 样 的 结果 很 不 理想 。 
































因此 ， 不 妨 试 试 静态 的 VLC。 因 为 依据 最 简单 的 模型 ， 我 们 可 以 为 每 个 行程 长 度 值 都 
分 配 不 同 的 二 进 制 位 数 ， 所 以 如 果 长 度 流 为 [4,3,1,1,1,3,1,2,1,2,1]， 使 用 一 元 编码 (unary 
encoding) 得 到 的 结果 为 [1110,110,0,0,0,110,0,10,0,10,0]， 共 20 个 二 进 制 位 。 可 以 看 出 ， 
这 种 方法 并 不 适用 ， 它 将 最 短 码 字 分 配给 了 最 小 的 值 (假定 它 在 数据 流 中 最 频繁 出 现 )。 
而 RLE 的 长 度 则 恰好 相反 ， 我 们 想 将 最 短 码 字 分 配给 最 大 的 值 (因为 它 表示 的 是 最 长 的 
行程 )。 

如 果 使 用 统计 编码 算法 〈 比 如 哈 夫 曼 编码 或 算术 编码 ) ， 结 果 可 能 会 更 好 。 可 以 通过 计算 
集合 的 炉 来 了 解 这 些 值 对 整个 数据 集 的 影响 ， 该 集合 的 炉 为 1.69， 也 就 是 说 编码 后 的 大 小 
约 为 19 个 二 进 制 位 (节省 了 大 约 13% 的 空间 )。 当 然 ， 如 果 使 用 的 是 自 适应 统计 编码 算 
法 ， 人 还 要 再 低 一 些 ， 因 为 只 要 有 局 部 性 存在 ， 它 都 会 加 以 利用 。 



































不 畦 的 书 虫 

RLE 算法 最 初 是 在 1966 年 由 Solomon W. Golomb 在 一 篇 论文 “中 提出 的 ， 也 是 在 这 篇 
论文 中 ， 他 第 一 次 使 用 一 种 形式 新 缉 、 内 容 丰 富 的 诬 姆 斯 ， 孝 德 式 比喻 来 描述 现在 著 
名 的 Golomb 编码 : 

特工 00111 号 再 次 回 到 了 赌场 ， 玩 起 了 赌博 游戏 ， 与 此 同时 人 类 的 命运 却 是 而 未 决 。 
这 篇 经 同行 评议 的 基础 性 论文 随后 用 玩 轮 盘 赌 桌 游 戏 这 一 比喻 来 描述 符号 出 现 的 可 能 
性 ， 其 中 甚至 包含 向 酒 保 点 头 对 整个 赌局 的 影响 。 这 是 对 那些 真正 醉心 于 数据 压缩 研 
完 的 人 们 的 一 个 生动 刻画 。 在 这 一 领域 内 ， 人 们 很 容易 只 关注 算法 而 忽略 背后 涉及 的 
那些 人 ， 但 事实 是 他 们 都 是 书 虫 。 数 学 书 虫 大 多 是 沉闷 、 傻 气 且 有 些 十 怪 的 ， 他 们 热 
爱 数字 并 能 找到 幽默 的 方式 讨论 复杂 的 问题 。 











通常 认为 RLE 是 单字 符 上 下 文 模型 ， 也 就 是 说 ， 对 任何 给 定 的 符号 ， 在 编码 时 我 们 都 只 





注 4: 应 用 LZ 算法 很 有 趣 ， 因 为 这 样 就 可 以 看 到 符号 行程 重复 的 频率 。 

注 5; 即便 是 那 种 有 多 种 算法 的 压缩 工具 也 可 能 以 这 种 方法 进行 选择 。 

注 6: 参见 S. W. Golomb 的 论文 Run-length Encodings， 载 于 IEEE Trans. Information Theory，1966 年 7 月 ， 
IT-12 卷 ， 第 399~401 页 。 
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虚 它 的 前 一 个 符号 ， 如 果 这 两 个 符号 是 相同 的 ， 那 么 行程 继续 ， 如 果 不 相同 ， 那 么 当前 行 
程 终止 。 虽 然 RLE 在 现代 压缩 工具 中 用 得 并 不 多 ,但 还 是 有 人 在 研究 更 高 效 的 RLE。 例 
如 ， 最 近 就 出 现 了 一 种 新 的 RLE 压缩 工具 TurboRLE， 号 称 是 速度 最 快 、 效 率 最 高 的 RLE 
编码 器 。 








有 了 时 将 RLE 中 的 长 度 当成 一 种 增 量 编码 值 是 有 帮助 的 。 如 果 我 们 从 绝对 值 
的 角度 理解 每 个 行程 的 开始 ， 那 么 长 度 值 表示 的 是 数据 流 中 符号 变化 之 间 的 
距离 。 

















8.2 增 量 编码 


虽然 前 面 的 章节 提 到 了 增 量 编码 ， 但 接 下 来 会 对 其 进行 更 深入 的 研究 。 从 压缩 角度 来 说 ， 
数值 型 数据 算是 最 令 人 讨厌 的 数据 类 型 之 一 ， 这 是 因为 大 多 数 时 候 ， 我 们 找 不 到 可 以 利用 
的 统计 信息 。 而 数值 型 数据 到 处 可 见 ， 比 如 GPS 的 坐标 信息 ， 搜 索引 擎 的 倒 排 索引 信息 以 
及 返回 的 用 户 ID ， 这 些 都 是 数值 型 数据 。 我 们 来 看 下 面 这 组 很 难处 理 的 数据 ; 














[51,12,8,221,0,0,12,18,9,255,0,18,64] 


从 炉 的 角度 来 说 ， 我 们 能 做 的 十 分 有 限 : 这 组 数据 中 只 有 少数 几 个 值 是 重复 的 ， 甚 余 的 精 
值 比较 高 。 一 般 来 说 ， 存 储 这 组 数据 中 的 每 个 值 需要 用 8 个 二 进 制 位 的 空间 。 幸 和 运 的 是 ， 
有 方法 可 以 将 这 组 数 转 换 为 蚁 值 更 低 的 另 一 组 数 。 


增 量 编码 ， 其 实 就 是 将 一 组 数据 转换 为 各 个 相 邻 数据 之 间 的 相对 差 值 ( 即 增 量 ) 的 过 程 。 
它 背 后 的 思想 是 ， 给 定 一 组 数据 ， 相 关 的 或 相似 的 数据 往往 会 集中 在 一 起 。 如 果 这 样 ， 有 
了 两 个 相 邻 值 之 间 的 差 ， 就 可 以 用 其 中 一 个 值 以 及 该 差 值 来 表示 另外 一 个 值 。 一 般 来 说 ， 
我 们 会 用 当前 值 减 去 前 一 个 值 ， 然 后 将 差 值 写 入 输出 流 。 


增 量 编码 可 以 说 是 现代 计算 技术 中 最 重要 的 算法 之 一 。 在 数值 型 数据 这 样 普 遍 而 其 录 值 
又 如 此 偏 高 的 情况 下 ， 增 量 编码 提供 了 一 种 不 依靠 统计 的 转换 。 事 实 上 ， 它 依靠 的 是 相 
邻 性 ， 所 以 最 适用 于 处 理 时 间 序 列 数据 〈 比 如 每 10 秒 检测 一 次 温度 的 传感器 所 产生 的 数 
据 )， 以 及 音频 和 图 像 数据 这 类 多 媒体 数据 ， 因 为 这 类 数据 中 邻近 的 数据 之 间 存 在 着 时 间 
上 的 关联 。 


以 下 面 这 组 数 为 例 : 


























[1,3,6,8,10] 
从 第 二 个 数 开 始 ， 用 当前 数 减 去 前 一 个 数 ， 得 到 了 增 量 编码 之 后 的 数据 : 


[1,3-1,6-3,8-6,10-8] 一 [1,2,3,2,2] 
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如 果 存 储 源 数据 ， 那 么 每 个 数 需 要 4 个 二 进 制 位 的 空间 〈 因 为 lb(10) = 4) 。 增 量 编码 后 ， 
每 个 数 只 需要 2 个 二 进 制 位 的 存储 空间 ， 结 果 是 所 有 这 些 数 共 需 要 10 个 二 进 制 位 的 空间 ， 
而 非 20 个 二 进 制 位 。 


要 找 回 产 数 据 ， 按 照相 反 的 步骤 操作 就 行 了 ， 将 当前 数 与 前 一 个 数 相 加 就 行 了 。 


从 编码 后 的 数据 集 [1,2,3,2,2] 开始 ， 按 照 顺序 ， 将 当前 数 与 前 一 个 数 之 和 作为 新 的 当前 数 ， 
得 到 了 原始 数据 : 








[1,1 +2,3+3,6+2,8+2] — [1,3,6,8,10] 


一 般 来 说 ， 增 量 编码 的 目的 就 是 缩小 数据 集 的 变化 范围 。 更 确切 地 说 ， 是 为 了 减少 表示 数 
据 集中 的 每 个 值 所 需要 的 二 进 制 位 数 。 这 也 就 意味 着 ， 当 相 邻 数值 之 间 的 差 相对 较 小 时 ， 
增 量 编码 最 有 效 。 如 果 差 值 变 大 ， 人 情况 就 会 变 糟 。 


我 们 来 看 以 下 数据 集 : 





[1,2,10,256] 
增 量 编码 之 后 ， 得 到 了 如 下 的 结果 : 


[1,2-1,10-2,256-10] — [1,1,8,246] 














可 以 看 到 ， 增 量 编码 后 数值 的 变化 范围 并 没有 变 小 ， 还 是 平均 需要 lb(maxVal) 个 二 进 制 位 
才能 对 整个 数据 集 编 码 。 


但 这 不 是 最 坏 的 情况 ， 我 们 来 看 以 下 数据 : 
[1,3,10,8,6] 

增 量 编码 后 ， 你 可 能 会 想 哭 : 
[1.3-1,10-3,8-10,6-8] 一 [1,2,7, 2,_2] 


在 这 组 数 中 ， 有 些 数 要 比 前 一 个 数 小 ， 因 此 转换 后 结果 中 有 负数 。 其 中 最 大 的 正 数 为 7， 
因此 存储 这 些 正 数 平均 需要 LOG2(7) = 3 个 二 进 制 位 。 不 幸 的 是 ， 现 在 还 需要 表示 负 
数 ， 这 就 意味 着 还 需要 额外 的 1 个 二 进 制 位 来 表示 正 负 ， 因 此 表示 每 个 数 都 需要 4 个 二 
进 制 位 。 


这 样 的 情况 很 常见 ， 也 正好 是 增 量 编码 的 弱项 。 遇 到 这 样 的 数据 ， 增 量 编码 的 效率 自然 不 
会 高 。 不 过 ， 也 不 用 灰心 ， 无 论 需要 处 理 的 是 什么 样 的 数据 ， 我 们 还 是 有 不 少 方法 可 以 改 
进 增 量 编码 这 一 算法 ， 让 它 变 得 更 加 健壮 。 


下 面 来 看 一 些 简单 的 改进 方法 。 
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8.2.1 XOR 增 量 编码 

减法 增 量 编 码 算法 的 问题 是 ， 结 果 中 可 能 会 出 现 负 数 ， 进 而 产生 各 种 问题 。 负 数 不 仅 在 存 

储 的 时 候 需 要 额外 的 二 进 制 位 ， 此 外 还 可 能 会 增 大 数据 的 变化 范围 ， 例 如 以 下 数据 : 
[1,3,10,8,6] 一 [1,3—1,10—3,8—10,6-—8] 一 [1,2,7,—2,—2] 


可 以 通过 使 用 按 位 异 或 运算 (bitwise exclusive OR，XOR) 代替 减法 运算 来 解决 这 一 问题 。 


XOR 
XOR 会 独立 地 对 每 个 二 进 制 位 进行 操作 。XOR 是 一 种 逻辑 运算 ， 仅 当 两 个 
输入 不 相同 时 〈 即 其 中 一 个 为 真 ， 另 一 个 为 假 时 ) 结果 为 真 。 

例如 : 














0101( 十 进 制 为 5) 
XOR 6011( 十 进 制 为 3) 
= 0110( 十 进 制 为 6) 
注意 ， 与 1 XOR 相当 于 对 该 位 取 反 。 
又 如 : 
0101( 十 进 制 为 5) 
XOR 1111( 十 进 制 为 3) 
= 1010( 十 进 制 为 10) 


这 里 注意 ， 任 何 值 与 自己 XOR 其 结果 总 是 0。 
在 很 久 以 前 ， 那 时 寄存 器 还 需要 手工 去 取 反 和 清 零 ， 这 些 的 确 都 是 基本 知识 。 




















XOR 完全 绕 开 了 负数 出 现 的 问题 ， 因 为 整数 之 间 的 XOR 根本 不 可 能 产生 负数 。 
再 次 以 [1,3,10,8,6] 这 组 数据 为 例 ， 由 于 


1@1=0 

3@1=11 @01=10=2 

10 @ 3=1010 @ 0011= 1001=9 
8 @®@10=1000 @ 1010=0010=2 
6@8=0110 ®@ 1000=1110=14 








因此 ，XOR 增 量 编码 生成 的 结果 为 [1,2,9,2,14]。 





虽然 这 同样 疫 能 缩小 数值 的 变化 范围 ， 因 为 存储 每 个 值 还 是 需要 4 个 二 进 制 位 的 空间 ， 但 
它 的 确保 证 了 无 论 数 值 之 间 的 相互 顺序 是 怎样 的 ， 编 码 后 的 每 个 值 都 是 正 的 。 
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8.2.2 ”参照 系 增 量 编码 
考虑 下 面 这 组 数 : 

[L107;108;110,11S;,120,125,132.132;131,135] 
将 这 10 个 数 中 的 每 个 数 都 存储 为 8 个 二 进 制 位 的 整数 ， 共 需要 80 个 二 进 制 位 的 空间 ， 不 
过 这 看 起 来 有 些 浪费 ， 因 为 所 有 小 于 107 的 数 都 只 是 在 填充 空白 。 我 们 预 留 了 足够 的 二 进 
制 位 来 表示 这 些 数 ， 但 是 数据 集中 没有 这 些 数 。 


参照 系 方法 通过 让 其 他 数 减 去 最 小 的 数 来 解决 上 面 这 个 问题 。 在 本 例 中 ， 所 有 的 数 都 处 于 
107~135。 因 此 ， 与 其 对 原始 序列 进行 编码 ， 不 如 先 让 每 个 数 都 减 去 107， 然 后 再 对 所 得 差 
值 进行 增 量 编码 ， 即 对 [0,1,3,8,13,18,25,25,24,28] 进行 编码 。 


这 样 一 来 就 可 以 用 不 超过 5 个 二 进 制 位 的 空间 对 每 个 差 值 进行 编码 了 。 


当然 ， 还 是 需要 用 8 个 二 进 制 位 来 存储 最 小 值 107， 此 外 需要 至 少 3 个 二 进 制 位 来 记录 每 
个 值 只 使 用 了 5 个 二 进 制 位 的 空间 。 即 使 如 此 ， 需 要 的 总 二 进 制 位 数 也 只 是 56 (8 + 3 二 
9x5)， 比 原来 的 80 个 二 进 制 位 少 很 多 。 


“参照 系 ”(frame of reference，FOR) 中 那个 “参照 数 ”(frame) 的 选取 ， 与 将 转换 恰当 地 
应 用 到 数据 集 上 有 关 ， 因 此 需要 将 数据 集 细 分 为 更 小 的 数据 组 。 


例如 ， 可 以 将 前 面 那 组 数 拆 分 成 以 下 两 组 数 
[107,108,110,115,120] 和 [125,132,132,131,135] 






































使 用 参照 系 增 量 编码 处 理 之 后 ， 得 到 : 





[107,0,1,3,8,13] 和 [125,0,7,7,6,10] 








为 数据 集 确 定 了 参照 数 后 ， 数 值 的 变化 范围 缩小 了 ， 因 此 表示 每 个 值 所 需要 的 二 进 制 位 数 
也 变 小 了 。 


遗憾 的 是 ， 离 群 值 还 是 可 能 造成 很 多 问题 。 














“参照 数 ” 到 底 是 什么 
FOR 最 初 的 设计 目的 是 ， 尽 可 能 地 将 更 多 数值 匹配 到 单个 整数 的 空间 之 内 (通常 是 32 
位 或 者 128 位 的 整数 )。 这 样 做 有 以 下 两 个 原因 
它 使 数值 在 运行 时 更 容易 处 理 (因为 计算 机 处 理 经 过 字 节 对 齐 ， 是 2 的 惫 的 那些 数 
值 会 更 容易 ) ， 同 时 还 可 以 将 它 当 作 一 种 漂亮 的 内 存 压 缩 表示 。 








注 7: 当然 ， 最 主要 的 问题 还 是 如 何 确定 最 理想 的 参照 数 。 目 前 ， 大 多 数 实现 使 用 的 是 32 位 到 128 位 这 样 
的 窗口 ， 因 为 这 个 空间 刚好 能 表示 一 个 整数 。 
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。 它 提供 了 一 种 非常 简单 的 压缩 方法 。 将 10 个 整数 压缩 到 32 个 二 进 制 位 的 空间 内 ， 
这 样 的 压缩 效果 可 以 说 很 好 了 ， 其 结果 是 产生 了 一 种 性 能 很 强 的 方法 ， 可 以 在 一 秒 
内 解码 数 十 亿 个 整数 值 ， 代 价 则 是 那些 没有 充分 利用 空间 的 整数 需要 额外 的 开销 。 





8.2.3 ”修正 的 参照 系 增 量 编码 
继续 考虑 以 下 数据 “; 
[1,2,10,256] 
增 量 编码 后 ， 得 到 : 
[12-1,10-2,256-10] = [1,1,8,246] 
这 组 数据 中 的 离 群 值 基本 上 破坏 了 对 其 余数 据 的 压缩 。 


为 了 缓解 这 一 问题 ，Zukowski 等 人 ”提出 了 一 种 补救 的 方法 ， 称 为 修正 的 参照 系 增 量 编码 
(Patched Frame of Reference Delta Coding, PFOR), 





它 的 工作 原理 如 下 步骤 所 示 。 


(1) 选择 一 个 位 宽度 b。 
CO) 遍历 数据 并 用 位 对 每 个 值 编码 。 
G) 当 遇 到 的 值 所 需 的 编码 位 数 大 于 b 时 ， 将 这 样 的 离 群 值 存储 在 单独 的 位 置 。 


PFOR 的 神奇 之 处 就 在 于 其 对 离 群 值 的 处 理 。 




















(1) 考虑 前 面 的 例子 增 量 编码 后 得 到 的 结果 ， 即 [1,1,8,246]。 

(2) 用 最 简单 的 形式 将 这 组 数据 分 成 两 部 分 ， 即 编码 需要 的 二 进 制 位 数 不 大 于 5 的 以 及 大 
于 5 的。 当 b5=4 时 ， 得 到 [1,1,8][246] 这 两 组 数据 。 

(3) 用 4 位 对 第 一 组 中 的 每 个 数 编码 ， 用 8 位 对 第 二 组 中 的 离 群 值 编码 。 

(4) 为 了 让 离 群 值 能 合并 到 源 数 据 列 中 ， 需 要 知道 它 的 位 置信 息 ， 因 此 得 到 的 结果 为 [1,1,8] 
[246][3]。 





在 解码 时 ， 我 们 需要 取出 离 群 值 并 将 它们 放 回 源 数据 流 ， 然 后 再 进行 增 量 编码 的 逆 操 作 。 














注 8: 我 们 知道 ， 一 进入 这 一 章 ， 你 就 思考 过 这 组 数据 了 。 因 此 这 一 次 ， 不 妨 更 认真 地 思考 一 下 。 

注 9: 参见 M. Zukowski, S. Heman, N. Nes 和 了 Boncz 的 论文 Super-Scalar RAM-CPU Cache Compression， 
载 于 Proceedings of the 22nd International Conference on Data Engineering, ICDE '06 IEEE Computer Society: 
Washington, DC, US4，2006 年 ， 第 59~71 页 ，doi:10.1109ICDE.2006.150。 

注 10: 值得 指出 的 是 ，PFOR 是 一 种 独立 于 增 量 编码 的 技术 ， 完 全 可 以 单独 地 应 用 到 数据 集 上 ， 这 也 是 为 
什么 当 与 增 量 编码 一 起 使 用 时 ， 可 以 看 到 这 一 算法 有 时 会 写作 PFD、PFor 或 者 PForDelta。 我 们 喜 
欢 这 样 使 用 它 ， 因 此 将 它 安排 在 这 一 节 ， 这 是 当 作者 的 一 个 好 处 。 
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当然 ， 说 到 这 里 还 是 有 两 个 主要 问题 没有 解决 ， 即 如 何 选择 2 的 值 以 及 怎样 处 理 离 群 值 ? 


1. 选择 合适 的 2 值 
我 们 的 目标 很 明确 ， 就 是 选择 一 个 合适 的 5 值 ， 使 大 多 数值 在 编码 时 需要 的 位 数 不 超 过 bb， 
并 且 可 以 通过 它 识 别 出 那 些 离 群 值 。 


通常 可 以 逐步 做 到 这 一 点 。 可 以 从 = 1 开始 试验 ， 看 看 数据 集中 有 多 少数 小 于 2 ， 如 果 























数据 集中 90% 的 数 小 于 2， 那 么 就 将 bp 设置 为 1。 否则 , 令 4b 的 值 为 2， 再 看 看 数据 集中 
有 多 少数 小 于 2。 如 有 必要 ， 可 以 重复 这 一 过 程 ， 比 如 令 b 的 值 为 3 并 看 看 有 多 少 值 小 于 
2 ， 直 到 数据 集中 90% 的 值 满足 条 件 。 


2. 怎样 处 理 离 群 值 

PFOR 的 有 趣 之 处 在 于 ， 除 了 得 到 修改 后 的 增 量 信息 外 ， 我 们 还 得 到 了 第 二 个 数据 集 ， 它 
表示 的 是 那些 离 群 值 。 第 二 个 数据 集中 的 值 变化 范围 很 天， 通常 很 难 直 接 压缩 。 根 据 原始 
论文 Super-Scalar R4M CPU Cache Compression 的 叙述 ，PFOR 没有 将 整个 的 离 群 值 原样 
扔 进 一 个 新 的 列表 中 ， 而 是 将 最 低 的 “b” 位 留 在 源 数 据 流 中 ， 并 将 剩 下 的 部 分 存储 在 离 
群 值 列表 中 。 


例如 ， 在 下 面 这 组 数 中 ， 除 了 一 个 数 以 外 ， 其 余数 最 高 的 三 位 是 0: 


























1010010 
0001010 
0001100 
0001011 











处 











里 这 组 数 时 ， 不 用 将 101,000,000,000 这 些 值 都 存储 在 离 群 值 列表 中 ， 而 是 一 眼 就 能 看 出 





只 有 第 一 个 值 才 是 需要 关注 的 离 群 值 。 结 果 是 得 到 了 如 下 的 三 组 新 数据 : 


第 一 组 就 是 原始 数据 的 最 低 4 位 ， 即 


[0010,1010,1100,1011] 


紧 接着 第 二 组 则 是 离 群 值 所 在 的 位 置 ， 即 


[0] 
第 三 组 则 是 这 些 位 置 上 离 群 值 的 实际 异常 位 ， 即 


[101] 


这 上 














FE 处 型 











后 ， 离 群 值 组 的 变化 范围 缩小 了 很 多 ， 也 有 可 能 更 容易 压缩 。 





8.2.4 压缩 增 量 编码 后 的 数据 
注意 ， 到 目前 为 止 实际 上 还 没有 进行 任何 压缩 ， 只 是 对 数据 进行 了 某 种 方式 的 转换 ， 使 它 
变 得 更 容易 压缩 。”" 


如 果 增 量 编码 能 做 到 以 下 两 点 ， 那 么 我 们 就 可 以 认为 它 生 成 的 数据 更 容易 压缩 : 


。 将 数据 集中 的 最 大 值 变 小 ， 因 此 缩小 了 数值 的 变化 范围 ; 
。 生成 了 许多 重复 值 ， 可 以 让 统计 压缩 的 效率 更 高 。 









































其 中 第 二 点 更 重要 ， 因 为 这 样 的 数据 更 适合 用 统计 压缩 工具 压缩 。 然 而 ， 如 有 果 增 量 编码 没 
有 生成 便于 统计 压缩 的 变量 数据 ， 那 么 我 们 就 需要 利用 好 第 一 点 ， 朝 着 减 小 整个 数据 集 的 
整体 LOG2 这 一 方向 努力 。 


一 般 来 说 ， 将 增 量 编码 后 的 结果 交 给 统计 编码 算法 处 理 ， 会 产生 良好 的 压缩 效果 。 


8.2.5 那么 它 对 文本 有 效 吗 

可 能 不 会 那么 有 效 。 我 的 意思 是 ， 它 可 以 工作 ， 但 是 由 于 英语 文本 中 使 用 最 多 的 是 还 是 字 
母 表 中 两 头 的 字母 ， 因 此 得 到 的 数据 中 会 出 现 很 多 正 负 数 交 替 的 情况 。 另 外 ， 对 于 英语 文 
本 ， 像 LZ 这 样 的 算法 可 能 会 做 得 更 好 。 


8.3 MTF 


上 下 文 数据 转换 背后 的 基本 思想 是 ， 数 据 的 排列 次 序 中 包含 着 一 些 有 助 于 编码 未 来 符号 的 
言 息 ， 前 移 编 码 (move-to-front coding，MTF) 利用 的 也 是 这 样 的 信息 。 然 而 ， 与 RLE 和 
字典 编码 器 只 考虑 直接 相 邻 的 符号 不 同 ，MTEF 考虑 更 多 的 是 在 较 短 的 窗口 内 某 个 特定 符号 
的 出 现 次 数 。 


MTF 反映 了 如 下 的 预期 : 如果 一 个 符号 在 输入 流 中 出 现 了 ， 那 么 它 很 有 可 能 会 出 现 多 次 ， 
或 者 至 少 短 时 间 内 会 成 为 常见 的 符号 。MTF 是 局 部 自 适应 的 ， 因 为 它 会 根据 输入 流 中 局 部 
区 域 符号 的 出 现 频 次 进行 调整 。 如 果 输 入 流 满足 了 这 样 的 预期 ， 换 句 话 说 ， 如 末 输 入 流 中 
出 现 了 相同 符号 集中 的 情况 ( 即 输入 流 中 符号 的 局 部 频次 会 出 现 显著 的 变化 )， 那 么 MTF 
会 产生 好 的 结果 。 


图 8-4 展示 了 MTF 的 完整 过 程 ， 它 是 通过 另外 管理 一 组 数据 来 工作 的 ， 其 中 包含 的 是 数 
据 集 中 所 有 不 同 的 值 ， 我 们 称 为 SortedArray。 当 从 数据 流 中 读 取 一 个 值 时 ， 我 们 会 找 出 该 
值 在 SortedArray 中 的 索引 并 将 此 索引 值 输出 ， 然 后 更 新 SortedArray， 将 该 值 移 到 最 前 面 ， 
即 让 其 索引 变 为 0。 



























































注 11: 事实 上 ， 如 果 复 习 一 下 前 面 的 章节 ， 你 就 会 发 现 我 们 十 分 明确 地 将 这 种 技术 称 为 “ 增 量 编码 ”而 不 
是 “ 增 量 压缩 *"， 从 技术 角度 来 说 ， 后 者 其 实 不 正确 ， 因 为 这 里 不 存在 压缩 。 
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SortedArray 
输入 流 0 1 2 3 4 










d 


获得 输入 值 在 SortedArray 
中 的 索引 


将 该 索引 值 
写 入 输出 流 


输出 流 


将 输入 值 移动 到 
SortedArray 的 最 前 面 


SortedArray 


0 1 2 3 4 














图 8-4: 详细 说 明 MTF 是 如 何 工作 的 原理 图 。 当 某 个 值 在 输入 流 中 出 现 多 次 时 ， 它 就 会 移动 到 
SortedArray 的 最 前 面 ， 从 而 使 输出 的 索引 值 相 对 较 小 


我 们 来 看 一 个 例子 。 为 了 简单 起 见 ， 假 定数 据 中 的 符号 都 是 小 写 的 ASCII 字符 ， 输 入 字符 
串 为 “banana”， 初 始 状态 下 SortedArray 中 的 字符 是 按 字母 顺序 排列 的 。 

() 读 取 字 母 “b”。 

(2)“b” 在 SortedArray 中 的 索引 为 1"?， 因 此 将 1 写 入 输出 流 。 

(3) 将 “b” 移 动 到 SortedArray 的 最 前 面 。 

(4) 读 取 字母 “a”， 由 于 其 现在 的 索引 为 1， 因 此 输出 1， 同 时 将 “a” 重 新 移 到 最 前 面 。 
(5) 对 其 余 的 字母 ， 按 照 顺序 重复 上 面 的 过 程 ， 有 具体 如 下 表 所 示 。 








输入 符号 ”输出 结果 SortedArray 
abcdefghijklmnopqrstuvwxyz 


Bb 1 bacdefghijklmnopqgrstuvwxyz 
a 1,1 abcdefghijklmnopqrstuvwxyz 
n 1,1,14 nabcdefeghijklmopqgrstuvwxyz 
a 1,1,14,1 anbcdefghijklmopqrstuvwxyz 
n 1,1,14,1,1 nabcdefghijklmopqgrstuvwxyz 
a 1,1,14,1,1,1 anbcdefghijklmopqrstuvwxyz 





注 12: 这 个 脚注 是 专门 为 非 编程 人 员 写 的 ,数组 的 索引 从 0 开始 , 因此 SortedArray 第 二 个 位 置 的 索引 为 1。 
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最 终 的 输出 结果 为 1,1,14,1,1,1， 其 信息 业 为 0.65“， 与 源 数 据 的 信息 1.46 相 比 小 很 多 。 
解码 器 按照 相反 的 步 又 操作 就 能 恢复 源 数 据 流 。 恢 复 时 ， 输 入 流 为 [1,1,14,1,1,1], 初始 状态 


的 SortedArray 为 [a,b,…,z]， 解 码 器 每 从 输入 流 中 读 取 一 个 符号 ， 就 将 SortedArray 中 该 索 
引 对 应 的 字符 输出 ， 再 将 该 字符 移 到 SortedArray 的 最 前 面 。 


8.3.1 消除 捣乱 符号 的 影响 

MTF 存在 的 一 个 问题 是 ， 有 一 些 捣 乱 的 符号 会 打 乱 前 面 存 在 的 符号 流 。 这 个 问题 比较 严 
重 ， 因 为 会 极 大 地 破坏 编码 ， 而 且 在 真实 数据 中 普遍 存在 。 
一 种 解决 方法 是 ， 不 是 一 读 到 某 个 符号 就 将 它 移 到 最 前 面 ， 而 是 采取 一 些 探索 式 方 法 慢 慢 
地 将 它 移 到 最 前 面 。 通 过 下 面 这 些 例子 ， 我 们 来 看 看 探索 式 方 法 在 实际 中 是 如 何 很 好 地 工 
作 的 。 

1. 向 前 移动 大 个 位 置 

如 果 采 用 这 种 方法 ， 那 么 与 当前 符号 匹配 的 元 素 就 不 再 是 直接 移 到 SortedArray 的 最 前 面 ， 
而 是 将 它 前 移 上 个 位 置 。 


这 样 就 需要 找 出 最 佳 的 上 值 ， 有 下 面 两 种 确定 大 值 的 简单 方法 : 































































































。 令 k=n (n 为 符号 的 个 数 )， 原 始 的 MTF 就 是 这 种 选择 ， 
令 k=1， 即 某 个 符号 被 读 取 一 次 ， 它 的 位 置 就 前 移 一 位 。 


将 大 取 为 1 时 ， 可 能 会 对 降低 那些 具有 较 好 局 部 相关 性 的 输入 流 性 能 ， 但 是 能 更 好 地 处 理 
其 他 类 型 的 输入 流 。 而 且 ，k = 1 时 算法 实现 起 来 也 很 简单 ， 因 为 在 更 新 SortedArray 时 只 
需要 将 当前 读 取 的 符号 与 前 一 个 符号 交换 位 置 。 这 样 设 定之 后 ， 也 能 更 好 地 处 理 那些 捣乱 
符号 ， 因 为 这 些 符号 现在 需要 慢 慢 地 移动 到 最 前 面 ， 而 不 是 一 下 子 就 移动 到 最 前 面 。 


2. 出 现 c 次 再 移动 

采用 这 种 方法 时 ，SortedArray 中 的 元 素 只 有 在 输入 流 中 出 现 过 c 次 之 后 (并 非 必 须 连 续 
出 现 )， 才 会 移动 到 最 前 面 。SortedArray 中 的 每 个 元 素 都 有 一 个 计数 器 ， 记 录 该 元 素 出 现 
的 次 数 。 这 样 我 们 就 可 以 为 符号 移动 到 最 前 面 设 定 一 个 出 现 次 数 的 国 值 。 当 应 用 到 文本 上 
上 时， 我 们 就 可 以 通过 最 终生 成 的 SortedArray， 来 反映 所 编码 的 语言 各 个 字母 的 使 用 频率 。 















































8.3.2 ”压缩 MTF 

MTF 生成 的 输出 流 的 炉 通常 要 比 源 数 据 流 小 ， 这 让 它 的 输出 成 为 传递 给 统计 压 瘦 器 进行 进 
一 步 压 缩 的 首选 对 象 。 由 于 MTF 生成 的 输出 流 中 有 很 多 的 0 和 1， 因此 简单 的 统计 编码 算 
法 就 可 以 工作 得 很 好 。 











注 13: 这 样 的 结果 可 能 真 的 会 让 香农 头疼 ， 这 也 是 到 目前 为 止 本 书 中 出 现 的 最 小 的 灶 。 
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MTF 的 独特 之 处 在 于 ， 符 号 在 短 时 间 内 重复 出 现时 ，MTF 会 重新 分 配 一 个 较 小 的 值 。 而 
RLE 会 将 最 短 的 编码 分 配给 那些 连续 重复 出 现 的 符号 。 实 际 上 ，MTF 是 最 简单 的 动态 统 
计 转 换 形式 之 一 。 


8.4 BWT 


有 规则 就 有 例外 ，BWT 就 属于 例外 。 从 前 面 的 介绍 中 可 以 看 出 ， 所 有 其 他 的 压缩 算法 通 
常 可 以 归 为 两 类 : 统计 压缩 ( 即 VLC) 和 字典 压缩 (如 LZ78)， 这 两 类 算法 从 不 同 的 角度 
利用 了 给 定数 据 流 中 存在 的 统计 元 余 信 息 。 


BWT 的 工作 原理 并 非 如 此 。 相 反 ， 它 通过 打 乱 数据 流 次 序 来 让 重复 的 子 串 聚集 在 一 起 。 
这 一 操作 本 身 不 能 压缩 数据 ， 却 可 以 为 后 续 的 压缩 系统 提供 转换 好 的 数据 疲 ， 方 便 压 缩 。 























BWT 是 如 何 产生 的 
就 压缩 算法 而 言 ，BWT 的 起 源 故 事 相 当 有 趣 。 


1978 年 ，David Wheeler 在 参观 贝尔 实验 室 时 偶然 发 现 了 这 一 变换 的 最 初版 本 ， 但 当 
时 ， 他 没有 考虑 太 多 。Wheeler 最 初 的 设想 是 将 它 当 作 基 准 ， 以 与 其 他 算法 进行 比较 ， 
因为 他 认为 它 运 行 得 实在 是 太 慢 了 。 此 外 ，Wheeler 所 在 的 剑桥 大 学 计算 机 实验 室 没 
有 严格 的 出 版 要 求 ， 因 此 这 一 算法 在 此 后 10 年 的 大 部 分 时 间 里 都 没有 被 发 现 和 报道 。 


Mike Burrows 在 剑桥 大 学 计算 机 实验 室 读 研 时 ，Wheeler 将 这 一 算法 教 给 了 他 ， 
Burrows 只 是 将 这 一 算法 当成 了 写 论 文 时 学 到 的 又 一 疯狂 算法 。 当 Burrows 询问 
Wheeler 他 是 如 何 创建 这 一 算法 时 ，Wheeler 却 真 的 记 不 起 来 了 。 当 时 有 一 些 基于 上 下 
文 分 组 值 的 相关 研究 ， 但 这 一 算法 是 如 何 实现 可 逆转 换 的 ， 从 来 没有 被 揭示 过 。 


直到 几 年 后 ，Burrows 才 认 识 到 这 一 转换 所 做 事情 的 重要 性 ， 同 时 意识 到 如 果 他 不 将 
算法 写 出 来 ， 那 么 这 一 算法 可 能 永远 不 会 被 发 表 。 因 此 ，1994 年 ，Burrows 开始 与 
Wheeler 合作 ， 利 用 当时 的 新 技术 和 最 新 的 计算 机 硬件 开发 了 性 能 高 效 的 实现 。 


本 书 作者 柯 尔 特 有 幸 在 拍摄 Compressor Head 这 一 关于 压缩 算法 的 YouTube 视频 系列 
的 第 四 集 时 见 到 了 Burrows 博士 本 人 ，Burrows 向 他 讲述 了 原始 算法 发 表 的 经 过 。 


“这 其 中 有 一 个 有 趣 的 故事 。 我 们 先 将 论文 投 给 了 Data Compression Comjerenrce， 但 遭 到 
了 拒 稿 ， 也 没有 给 出 拒 稿 的 原因 。 当 我 去 询问 时 ， 他 们 回复 说 没有 解释 拒 和 芒 原 因 的 习 
惯 。 因 此 ， 我 们 将 它 作 为 技术 报告 发 表 了 。 有 人 看 到 了 这 份 报告 并 在 Dr Dobbs Journal 
上 发 表 了 一 篇 关于 它 的 文章 后 ， 这 一 算法 就 变 得 更 出 名 了 。 第 二 年 ，Dala Compression 
Conference 的 人 要 求 我 再 次 提交 这 篇 论文 以 便 发 表 。 我 回复 说 :“ 我 不 想 发 表 ， 也 不 会 
解释 为 什么 ， 因 为 我 也 没有 解释 这 类 事情 的 习惯 。” 


你 能 想象 吗 ? 如 果 不 是 Burrows 的 努力 让 这 一 算法 得 以 发 表 ， 可 能 世人 永远 也 不 会 知 
道 它 。 这 再 次 证 明了 压缩 世界 是 疯狂 的 ， 有 些 奇 怪 ， 还 存 有 外 念 。 














8.4.1 顺序 很 重要 
燃 作为 度量 单位 ， 它 的 一 个 问题 是 没有 浪 虑 符号 之 间 的 顺序 。 不 管 如 何 打 乱 符 号 集 
[1234567890] 中 符号 的 顺序 ， 它 的 箭 始终 是 4。 


但 是 我 们 知道 ， 事 实 上 符号 之 间 的 顺序 很 重要 。 例 如 ，LZ 系列 字典 压缩 算法 就 非常 重视 
符号 之 间 的 顺序 ， 本 市 介绍 的 其 他 上 下 文 转换 算法 同样 如 此 。 


因此 ， 如 果 顺 序 的 确 很 重要 ， 那 么 我 们 就 有 理由 认为 : 通过 转换 数据 流 中 符号 之 间 的 顺 
序 ， 可 以 让 数据 流 更 容易 压缩 。 


最 简单 的 重新 排序 就 是 直接 将 数据 按 顺 序 排列 ， 例 如 ， 将 [9,2,1,3,4,8,0,6,7,5] 排序 为 
[0,1,2,3,4,5,6,7,8,9] 后 ， 我 们 就 可 以 将 其 增 量 编码 为 [0,1,1,1,1,1,1,1,1,1]， 它 的 值 要 比 源 数 
据 小 很 多 。 


不 过 遗憾 的 是 ， 纯 粹 的 排序 是 单方 向 的 。 也 就 是 说 ， 在 对 数据 排序 后 ， 如 果 没 有 更 多 额外 
的 信息 指明 它 是 如 何 变化 的 ， 我 们 无 法 让 数据 重新 回 到 未 排序 的 状态 。 

因此 ， 我 们 不 能 单纯 地 对 数据 进行 排序 ， 但 可 以 近似 地 这 样 做 。 

BWT 会 打 乱 数据 流 中 符号 的 顺序 ， 并 试图 让 相同 的 符号 徐 彼 此 靠近 ， 这 一 行为 通常 称 为 
字典 序 排列 (lexicographical permutation)。 或 者 更 确切 地 说 ， 通 过 BWT， 我 们 可 以 找 出 原 
始 数 据 集 的 一 种 排列 ， 根 据 其 顺序 ， 该 排列 可 能 更 容易 压缩 。 

其 中 最 值得 关注 的 一 点 是 : 通过 BWT， 在 编码 与 解码 时 无 须 增加 太 多 的 额外 信息 。 下 面 
我 们 来 一 探究 竟 。 


















































8.4.2 BWT 的 工作 原理 
要 开始 BWT 的 “变换 ”工作 ， 需 要 先 创 建 一 张 表 ， 其 中 包含 输入 流 的 所 有 移 位 排列 。 


举 个 例子 ,假定 输入 流 是 BANANA， 那 么 需要 将 它 写 在 表 的 第 一 行 。 然 后 ， 在 接 下 来 的 
每 一 行 ， 我 们 都 会 对 该 字符 串 进行 一 次 循环 右 移 一 位 操作 。 也 就 是 说 ， 将 除了 最 右边 的 字 
符 之 外 的 所 有 字符 向 右 移 一 位 ， 然 后 将 最 右边 的 字符 放 在 最 前 面 。 继 续 进行 这 样 的 移 位 操 
作 ， 直 到 对 所 有 的 字符 都 操作 了 一 遍 ， 如 下 所 示 。 


BANANA 
ABANAN 
NABANA 
ANABAN 
NANABA 
ANANAB 
BANANA 
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接 下 来 ， BWT 会 对 表 中 的 每 一 行 按 字 典 顺序 排序 。 看 到 所 有 的 字符 串 又 按照 顺序 排列 ， 
是 不 是 感觉 很 好 ? 

ABANAN 

ANABAN 

ANANAB 

BANANA 


NABANA 
NANABA 


现在 ,需要 你 注意 每 个 字符 串 的 最 后 一 个 字符 (用 和 斜体 做 了 强调 )。 从 上 到 下 ， 这 些 


字符 组 成 了 字符 串 NNBAAA， 有 意思 的 是 ， 这 恰好 是 BANANA 的 一 种 排列 ， 而 且 与 
BANANA 相 比 更 好 地 将 相同 的 字符 聚集 在 了 一 起 。 





事实 上 ， 这 正 是 我 们 在 找 的 排列 。 从 上 面 的 过 程 中 可 以 看 出 ， 按 照 顺序 循环 生成 排列 ， 然 
后 排序 ， 这 样 由 最 后 一 列 字 符 组 成 的 排列 ， 与 源 字符 串 相 比 ， 能 更 好 地 将 相同 的 字符 聚集 
起 来 。 











因此 ，NNBAAA 就 是 字符 串 BANANA 经 BWT 后 输出 的 结果 。 


不 过 在 你 离开 之 前 ， 还 有 一 个 重要 的 数据 需要 掌握 。 观 察 排序 后 的 表格 ， 你 会 发 现 输入 字 
符 串 的 索引 为 3。 








ABANAN 
ANABAN 
ANANAB 
BANANA 
NABANA 
NANABA 


上 WP 证 


在 BWT 的 解码 阶段 ， 我 们 需要 该 索引 值 ， 因 为 它 将 使 我 们 从 更 易 压 缩 的 排列 回 到 源 字符 
串 上 。 








8.4.3 ”BWT 的 逆 操 作 
BWT 最 引 人 注 目的 特点 并 不 在 于 它 能 生成 更 易 压缩 的 输出 (普通 排序 也 能 做 到 这 一 点 )， 
而 在 于 只 需要 极 小 的 数据 开销 ， 它 所 进行 的 变换 操作 就 是 可 逆 的 (reversible ) 。 


下 面 就 来 证 实 它 的 正确 性 。 因 此 ， 我 们 的 目标 是 对 BWT 和 解码， 而 所 给 的 条 件 是 字符 串 
NNBAAA 和 行 索 3 引 | 3。 


























首先 需要 做 的 是 重新 生成 排列 表格 。 要 做 到 这 一 点 ， 就 需要 迭代 利用 排序 和 字符 诡 加 操作 。 


第 一 步 将 输出 字符 串 写 人 下 表 中 ， 它 表示 的 是 每 一 行 的 最 后 一 个 字符 。 








输出 字符 串 /最 后 一 列 





[N] 
[N] 
[B] 
[A] 
[A] 





[A] 


说 来 也 奇怪 ， 如 果 对 这 一 列 排序 ， 其 结果 与 原来 的 排序 后 表格 的 第 一 列 相同 ， 如 下 表 所 示 。” 





输出 字符 串 。 ”排序 后 
[ [A] 


[N] 
[N] 
[B] 
[A] 
[A] 








[A] 


[A] 
[A] 
[B] 
[N] 
[N] 


接 下 来 将 这 两 列 合 并 ， 这 样 每 行 就 都 有 两 个 字符 了 : 


[NA] 
[NA] 
[BA] 
[AB] 
[AN] 
[AN] 





按 字典 顺序 对 每 行 排序 ， 结 果 如 下 : 


[AB] 
[AN] 
[AN] 
[BA] 
[NA] 
[NA] 


接着 ， 将 原始 的 输出 字符 串 (NNBAAA) 按 顺 序 添加 每 行 字符 串 的 最 前 面 (每 行 添加 1 个 
字符 )， 所 得 结果 如 下 所 示 : 


[NAB] 
[NAN] 
[BAN] 
[ABA] 
[ANA] 
[ANA] 























注 14: 这 不 仅仅 是 由 于 BANANA 这 个 单词 的 构造 比较 奇怪 。 这 是 我 们 观察 到 的 BWT 具有 的 性 质 ， 但 至 
于 为 什么 会 有 这 个 性 











E 质 ， 连 BWT 的 提出 者 也 不 清楚 。 
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然后 ， 再 次 对 每 行 字符 串 按 字典 顺序 按 列 排序 ， 继 续 将 原始 字符 串 按 顺 序 添加 到 每 行 字 符 
串 的 最 前 面 并 按 列 排序 ， 直 到 整个 输出 矩阵 的 宽度 等 于 输出 字符 串 的 长 度 ， 具 体 过程 如 下 
表 所 示 。 


名 4 司 6 到 8 9 

[ABA] [NABA] [ABAN] NABAN] [ABANA] [NABANA [ABANAN] 
[ANA] [NANA] [ANAB] NANAB] [ANABA] [NANABA [ANABAN] 
[ANA] [BANA] [ANAN] BANAN] [ANANA] [BANANA [ANANAB] 
[BAN] [ABAN] [BANA] ABANA] [BANAN] [ABANAN BANANA] 
[NAB] [ANAB] [NABA] ANABA] [NABAN] [ANABAN NABANA] 
[NAN] [ANAN] [NANA] ANANA] [NANAB] [ANANAB NANABA] 

















观察 最 后 输出 的 矩阵 ， 你 很 快 就 能 发 现 如 下 两 个 神奇 的 性 质 。 


最 后 的 矩阵 与 在 编码 器 中 生成 的 排序 后 的 置换 矩阵 完全 相同 。 这 意味 着 ， 即 使 只 给 出 排 

序 后 矩阵 的 最 后 一 列 ，NNBAAA， 我 们 也 能 利用 它 来 恢复 生成 其 整个 排序 后 的 矩阵 。 

。 还 记得 在 编码 阶段 输出 的 索引 3 吗 ? 由 于 这 个 征 阵 与 编码 器 中 排序 后 的 矩形 完全 相同 ， 
因此 只 需要 从 矩阵 中 取出 索引 号 为 3 的 行 (注意 索引 是 从 0 开始 的 ， 因 此 索引 3 对 应 的 
是 第 四 行 )， 就 能 恢复 源 输入 字符 串 BANANA。 


8.4.4 具体 的 实现 


这 里 我 们 给 你 提 个 醒 ! 





后 
后 


























虽然 拥有 如 此 多 的 优点 ， 但 遗憾 的 是 ， 不 能 在 50 GB 大 小 的 文件 上 进行 BWT。 这 种 置换 
变换 的 工作 方式 就 决定 了 ， 我 们 每 一 行 都 需要 存储 50 GB 大 小 的 符号 (每 一 列 也 是 50 GB 
大 小 )， 并 且 按 行 依次 左 移 一 位 符号 。 整 个 符号 矩阵 需要 的 空间 太 大 了 。 


因此 ， 我 们 通常 将 BWT 称 为 块 排序 变换 ， 具 体 实现 时 ， 它 会 将 整个 文件 分 为 许多 1 MB 
大 小 的 数据 块 ， 然 后 在 每 个 数据 块 上 分 别 应 用 该 算法 。 这 样 一 来 ， 大 多 数 现 代 设 备 就 能 
足 该 算法 对 内 存 的 要 求 ， 同 时 该 算法 也 能 获得 较 好 的 性 能 。 











BWT 与 DNA 

BWT 一 直 被 当 作 一 种 边缘 压缩 算法 。 虽 然 最 初 在 处 理 文本 数据 时 ， 显 示 出 非常 好 的 效 
果 ， 但 是 从 性 能 角度 来 看 ， 它 永远 无 法 与 GZIP 这 样 的 算法 去 竞争 。 因 此 ，BWT (或 
者 说 BZIP2， 主 流 的 BWT 编码 器 ) 从 来 没有 在 压缩 世界 掀起 什么 风浪 。 

情况 一 直 如 此 ， 直 到 人 类 开始 对 脱氧 核糖 核酸 (deoxyribonucleic acid，DNA) 测序 。 
人 类 的 DNA 分 子 结构 虽然 复杂 ， 但 是 其 组 成 非常 简单 ， 只 包含 4 种 基本 的 核 苦 酸 碱 
基 ， 分 别 标记 为 A、C、G 和 T。 一 个 给 定 的 基因 组 基本 上 可 以 看 成 是 一 个 长 字符 囊 ， 
包含 这 4 个 符号 按 不 同 的 顺序 排列 。 有 多 少 这 样 的 字符 呢 ? 据 计算 ， 人 类 基因 组 大 约 











A 
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包含 31.647 亿 个 DNA 碱 基 对 。 


结果 表明 ，BWT 这 一 块 排序 算法 对 DNA 来 说 是 一 种 理想 的 变换 ， 可 以 使 其 更 容易 压 
缩 、 查 询 和 检索 。( 事 实 上， 有 大 量 的 论文 证 明了 这 一 点 。) 当 根 据 参 照 对 新 基因 组 进 
行 读 取 校 准时 ， 大 小 的 减 小 和 可 用 性 的 提高 对 快速 读 取 来 说 十 分 重要 。 


这 又 从 另 一 个 侧面 说 明 ， 在 数据 压缩 领域 不 存在 无 所 不 能 的 银 弹 。 每 个 信息 流 都 有 其 
自身 的 变化 特征 ， 因 此 它 对 不 同 变换 和 编码 器 的 响应 也 不 同 。 虽 然 BWT 没有 能 将 网 
络 世界 从 GZIP 那里 抢 过 来 ， 但 是 这 并 不 妨碍 在 未 来 的 几 十 年 里 它 将 在 生物 信息 学 令 
域 独 领 风骚。 














8.4.5 压缩 BWT 后 的 数据 


显然 ，BWT 本 身 不 压缩 数据 ， 它 只 是 转换 数据 。 为 了 让 BWT 真正 起 作用 ， 还 需要 应 用 其 
他 的 转换 来 生成 炉 值 更 小 的 数据 流 ， 然 后 再 对 其 压缩 。 

















最 常见 的 算法 是 将 BWT 的 输出 作为 MTF 的 输入 ， 经 过 处 理 后 接着 用 统计 编码 算法 处 理 。 
这 基本 上 就 是 BZIP2 的 内 部 工作 原理 。 


1. 为 什么 不 用 RLE 
为 什么 使 用 MTF 而 不 是 RLE 呢 ? 这 里 需要 记 住 的 是 RLE 对 干扰 符号 十 分 敏感 ， 而 BWT 
不 能 生成 足够 长 的 连续 行程 以 确保 RLE 始终 处 于 理想 状态 。 相 反 ，MTF 则 对 干扰 符号 这 
类 问题 不 敏感 。 


2. 为 什么 不 使 用 LZ 算法 


又 为 什么 不 使 用 LZ 算法 呢 ? 下 面 来 看 一 个 简单 的 例子 。 需 要 记 住 的 是 ， 当 字符 串 中 出 现 
较 长 的 重复 子 串 时 ，LZ 算法 才 工 作 得 最 好 。 









































LZ 算法 在 字符 种 TOBEORNOTTOBEORTOBEORNOT 上 工作 得 很 好 ， 因 为 TOBEORNOT 
是 其 中 最 长 的 重复 子 串 ， 但 是 ，LZ 算法 在 其 他 类 似 的 字符 串 上 工作 得 并 不 好 。 


假定 经 过 变化 后 得 到 的 结果 为 “OBTTTTTTOOEER”。 




















(1) LZ 算法 看 到 第 一 个 T 时 会 将 其 编码 为 字面 值 。 

(CO) 第 二 个 工会 被 编码 为 前 一 个 字符 的 匹配 ， 甚 长 度 为 1。 

(3) 遇 到 第 三 个 工时 会 向 前 看 一 个 符号 ， 并 将 TT 这 组 符号 当成 前 两 个 字符 的 匹配 ， 其 长 度 
为 2。 结 果 是 ，6 个 字符 “T” 会 被 编码 为 字面 值 了 以 及 <-1,1 > 、<-22> 、<-2.2> 这 
3 个 标记 。 















































之 后 ， 如 果 再 遇 到 一 串 很 长 的 “T” 值 ， 我 们 可 以 期 望 出 现 一段 较 长 的 匹配 。 然 而 不 幸 的 
是 ， 由 于 BWT 使 这 些 符号 出 现 得 这 么 分 散 ， 因 此 匹配 的 距离 值 可 能 会 比较 大 ， 而 这 会 影 
响 我 们 对 数据 流 的 编码 。 
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数据 建 模 





任何 玩 过 “ 传 话 简 ” (telephone) 游戏 的 人 都 知道 上 下 文 语 境 对 大 脑 的 重要 性 。 在 大 多 数 情 
况 下 ， 单词 “cup”( 杯 子 ) 和 “cop”( 警 察 ) 本 身 出 现 的 可 能 性 大 致 相同 。 然 而 ， 如 果 是 
在 一 个 喧闹 的 聚会 上 ， 你 听 到 一 个 单词 并 认为 它 不 是 “cup” 就 是 “cop ， 那 么 你 的 大 脑 
就 会 根据 前 面 的 上 下 文 来 确定 它 会 是 哪个 单词 。 例 如 ， 如 果 你 新 认识 的 朋友 说 “Wash the 
( 洗 )， 那 么 下 一 个 单词 就 很 有 可 能 是 “cup”; 如 果 他 说 “Run from the”( 快 跑 )， 那 么 下 
一 个 单词 就 可 能 是 “cop”。， 


这 就 是 多 上 下 文 编码 算法 背后 的 基本 概念 。 它 会 考虑 最 后 观察 到 的 儿 个 符号 以 确定 当前 符 
号 的 理想 编码 位 数 。 


也 许 ， 一 个 更 具体 的 例子 是 英语 中 的 字母 组 合 如 何 影响 后 面 字母 的 出 现 概率 。 


例如 ， 在 “典型 ”的 英语 文本 中 ， 字 有 母 “h ”平均 的 出 现 概 率 大 约 是 5%。 然 而 ， 如 果 当 前 
字母 是 “全 ， 那 么 下 一 个 字母 是 h ”的 概率 就 会 高 很 多 ， 其 出 现 概率 大 约 为 30%， 这 是 因 
为 “th” 这 样 的 字母 组 合 在 美语 中 很 常见 。 类 似 地 ， 字 母 “u” 平 均 的 出 现 概 率 大 约 是 2%。 
而 如 果 当 前 字母 是 “q”， 那 么 下 一 个 字母 是 “u” 的 可 能 性 则 会 超过 99%。 在 这 个 例子 中 ， 
通过 当前 字母 是 “q”， 我 们 就 能 预测 到 下 一 个 字母 会 是 “u”， 因 此 可 以 分 配给 它 更 少 的 二 
进 制 位 数 。 这 种 基于 统计 观察 的 相 邻 关 系 ， 通 常 也 被 称 作 “预测 ”编码 器 ， 你 会 在 大 多 数 






































注 1: 不 过 ,如 果 是 在 互联 网 上 ,也 可 能 会 有 用 到 洗 警 察 "或 者 “ 快 跑 ,杯子 "这 样 句 子 的 地 方 。( 谁 知道 呢 ? ) 











Tix 


正式 的 压缩 文献 中 看 到 这 个 “恰当 ”的 术语 。” 





这 类 编码 器 也 可 以 认为 是 统计 压缩 器 的 “加 强 ”(on-steroids) 版 。 它 将 自 适 应 模型 ( 见 第 
3 章 ) 和 多 种 符号 码 字 对 应 表 〈 见 第 2 章 ) 结合 起 来 ， 根 据 前 面 观察 到 的 符号 ， 为 当前 符 
号 生成 尽 可 能 短 的 码 字 。 














不 过 这 并 不 是 什么 新 的 概念 。 早 在 18 世纪 ” 它 就 被 首次 提出 ， 迄 今 还 是 最 强大 的 统计 计算 
工具 之 一 。 


9.1 马尔 可 夫 链 


马尔 可 夫 链 (Markov chain) 这 个 概念 很 有 意思 ， 我 们 先 来 看 一 下 其 比较 迷惑 人 的 技术 性 
定义 : 


马尔 可 夫 链 是 一 种 离散 的 随机 过 程 ， 其 未 来 的 状态 只 取决 于 现在 ,而 与 过 去 的 历史 无 关 。 











有 了 这 样 的 定义 ， 假 定 有 一 个 学 生 已 经 完成 了 中 学 三 年 级 的 课程 ， 而 我 们 想 知道 他 在 中 学 
四 年 级 的 数学 课 上 得 A 的 概率 。 一 般 来 说 ， 通 常 我 们 会 认为 这 样 的 预测 会 取决 于 他 在 中 学 
一 年 级 、 二 年 级 和 三 年 级 的 数学 课 上 所 取得 的 成 绩 。 然 而 ， 如 果 只 有 三 年 级 〈 即 当前 ) 的 
成 绩 会 对 结果 产生 影响 ， 而 前 两 年 的 成 绩 完全 可 以 忽略 不 计 ， 那 么 就 可 以 认为 这 是 一 个 马 
尔 可 夫 过 程 。 





我 们 再 来 看 一 个 更 详细 的 示例 。 

假定 我 们 刚刚 度 过 了 长 达 104 天 的 暑假, 现在 事后 回顾 *， 我 们 想 分 析 一 下 这 个 暑假 是 怎么 
过 的 ， 还 想 根据 当 天 是 周 几 来 分 析 。 我 们 发 现 这 个 暑假 中 每 周一 进行 洞穴 探险 和 地 毛 球 中 
任何 一 种 活动 的 可 能 性 都 是 50%， 如 下 表 所 示 。 























星期 活动 概率 
周一 洞穴 探险 50% 
周一 地 握 球 50% 





注 2: 注意 ， 在 常见 的 压缩 文件 中 ， 这 些 被 称 为 “预测 ”编码 器 。 不 过 作为 本 书 的 作者 ， 我 们 不 喜欢 这 个 术 
语 ， 因 为 “预测 ”就 意味 着 “可 能 会 出 错 ”。 这 似乎 违背 了 人 们 对 压缩 的 直觉 认 知 ， 如 果 在 编码 或 者 
解码 时 出 现 预 测 下 一 个 符号 错误 的 情况 ， 那 么 最 终 得 到 的 会 是 一 个 损坏 的 压缩 系统 。 相 反 ， 我 们 更 喜 
欢 称 这 些 算法 为 多 上 下 文 算法 ， 因 为 它 将 多 个 符号 和 统计 表 / 模型 结合 在 一 起 ， 以 确定 编码 下 一 个 符 
号 所 需 的 最 少 二 进 制 位 数 。 
注 3: 决策 支持 系统 的 历史 可 以 追溯 到 帕斯卡 ， 参 见 维基 百科 Pascal 词 条 。 
注 4: 对 那些 阅读 数据 压缩 方面 图 书 的 人 来 说 ， 暑 假 评 估 是 一 件 再 平常 不 过 的 事情 。 
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可 以 用 如 下 的 术语 来 描述 这 一 发 现 ， 如 果 今 天 是 周一 ， 那 么 进行 洞穴 探险 和 地 毛 球 中 任何 
一 种 活动 的 概率 都 是 50%。 


我 们 发 现 周二 的 活动 种 类 更 多 ， 具体 情况 如 下 表 所 示 。 

















星期 活动 概率 
周二 在 泳池 边 身 着 ”10% 
周二 跳 袜子 舞 20% 
周二 修剪 草坪 30% 
周二 洞穴 探险 40% 











a 这 是 一 件 大 事 ， 或 者 更 确切 地 说 ， 在 过 去 这 是 一 件 大 事 。 

也 可 以 用 类 似 的 语 名 描述 周二 ， 即 “如 果 今 天 是 周二 ， 那 么 跳 袜 子 舞 的 概率 为 20%”。 
实际 上 ， 这 就 是 我 们 所 说 的 “二 阶 上 下 文 ”(second-order context) 。 我 们 有 两 组 数据 并 利 
用 它们 来 定义 某 个 活动 的 发 生 概率 。 星 期 在 这 里 是 作为 “一 阶 ” 数 据 (“first order” 或 
“context-1”data) ， 相 应 的 活动 则 是 “二 阶 ”数据 (“second order” 或 “context-2”data ) ， 
其 结果 是 百分比 形式 的 概率 。 
































下 面 来 看 一 下 三 阶 的 上 下 文 ， 如 下 表 所 示 : 














星期 第 一 个 活动 第 二 个 活动 第 二 个 活动 的 发 生 概率 
周一 地 掷 球 修脚 5% 

周一 地 掷 球 吃 冰 沙 95% 

周一 洞穴 探险 旧金山 HTML5 聚会 50% 

周一 洞穴 探险 吃 比萨 饼 25% 

周一 洞穴 探险 缝 纪 课 程 25% 


这 个 例子 稍微 有 些 复杂 ， 我 们 来 看 表格 的 第 4 行 ， 意思 是 说 “如 果 今 天 是 周一 ， 并 且 我 们 
刚刚 进行 了 洞穴 探险 ， 那 么 接着 去 吃 比萨 饼 的 概率 为 25%”。 


每 个 上 下 文 都 在 某 种 程度 上 描述 了 状态 之 间 的 转移 。 


也 可 以 将 它 可 视 化 为 一 棵 树 ( 见 图 9-1) ， 这 里 每 个 节点 代表 一 个 活动 ， 每 次 转移 则 有 相应 
的 概率 。 
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9-1; 马尔 可 夫 链 工作 方式 的 树 形 图 





走 近 马尔 可 夫 
1913 年 ， 安 德 烈 . 安 德 耶 维 齐 " 马尔 可 夫 (Andrey Andreyevich Markov) 通过 将 数学 与 
诗歌 结合 起 来 ， 创 立 了 概率 论 的 一 个 新 分 支 。 


在 钻研 亚历山大 .普希金 (Alexander Pushkin) 的 长 篇 诗 体 小 说 《 叶 甫 盖 尼 ， 奥 涅 金 》 
的 过 程 中 ， 马 尔 可 夫 花 了 大 量 时 间 详 细 分 析 元 音 和 辅音 出 现 的 规律 。1913 年 1 月 23 
日 ， 他 发 表 了 自己 的 研究 成 果 ， 建立 了 一 个 统计 模型 详细 说 明 ， 给 定 一 个 字母 ， 接 下 
来 会 出 现 哪个 字母 有 着 有 限 且 可 重复 的 概率 。 


大 多 数 人 认为 ， 马 尔 可 夫 很 勇敢 。 对 于 对 手 来 说 ， 马 尔 可 夫 非 常 好 斗 ， 他 经 常 参 与 到 
针对 当局 的 公共 抗议 和 斗争 中 ， 而 且 因为 需要 很 多 天 才能 从 打斗 中 恢复 而 闻名 。 当 研 
完成 果 发 表 时 ， 他 已 年 过 半 百 并 且 退 休 好 几 年 了 。 历 史上 最 强大 的 统计 模型 之 一 的 提 
出 者 是 一 个 无 由 的 反叛 者 ， 这 得 有 多 合适 啊 ! 


马尔 可 夫 提 出 的 事件 选择 概率 (probabilistic event selection) 这 一 概念 ， 与 当时 概率 界 
的 主流 观点 格格 不 入 ， 当 时 的 概率 模型 大 都 与 抛掷 硬币 或 搓 乳 子 有 关 。 马 尔 可 夫 链 则 
帮助 我 们 提出 了 关联 概率 的 问题 ， 例 如 “如 果 今 天 多 云 ， 那 么 明 后 两 天 会 下 十 的 概率 
是 多 少 ? ”在 1913 年 ， 用 数学 解决 这 个 问题 的 准确 性 与 投掷 鸡 骨 头 瞎 猜 差不多 。 














最 近 几 年 ， 巨 型 马尔 可 夫 链 得 到 了 应 用 。 例 如 ， 由 谷歌 的 创始 人 Larry Page 和 Sergey 
Brin 设计 的 PageRank 算法 就 是 以 马尔 可 夫 链 为 基础 ， 其 中 的 状态 就 是 互联 网 上 总 数 
大 约 400 亿 的 网 页 ， 而 转移 则 是 网 页 之 间 的 链接 。 这 个 算法 就 是 为 了 计算 如 果 用 户 随 
机 浏览 ， 那 么 他 看 到 每 个 网 页 的 概率 是 多 少 。 


亚马逊 通过 马尔 可 夫 链 来 决定 向 用 户 推荐 什么 样 的 产品 。 例 如 ， 如 果 其 他 人 在 浏览 人 
商品 后 购买 了 B 商品 ， 那 么 当 你 浏览 A 商品 的 时 候 ， 亚 马 逊 向 你 推荐 B 商品 的 可 能 
性 就 会 很 大 。 

马尔 可 夫 链 在 游戏 推广 方面 的 应 用 前 景 也 很 广阔 ， 很 多 游戏 厂商 这 样 认为 :“ 如 果 你 以 
前 喜欢 动作 类 的 游戏 ， 而 现在 又 喜欢 与 小 狗 有 关 的 游戏 ， 那 么 就 可 以 得 出 : 如 果 出 现 
一 款 新 的 小 狗 对 抗 外 星 侵略 者 的 动作 游戏 ， 你 一 定 会 很 喜欢 。” 


总 的 来 说 ， 这 些 算法 在 搜索 与 寻找 、 预 测 天 和气 以 及 匹配 用 户 喜好 方面 的 能 力 是 无 穷 的 ， 
甚至 有 可 能 通过 这 些 算法 来 预测 下 一 次 军事 冲突 的 情况 。 








9.1.1 马尔 可 夫 链 与 压缩 


马尔 可 夫 链 这 一 概念 能 很 好 地 融入 现 有 的 模型 ， 因 为 可 以 认为 统计 编码 算法 就 是 一 阶 马尔 


可 夫 链 。 有 了 数据 流 中 各 符号 出 现 的 概率 表 ， 我 们 就 能 为 其 分 配 相应 的 码 字 。 


通过 为 每 个 在 前 面 出 现 的 符号 增加 一 张 符号 码 字 对 应 表 ， 我 们 就 可 以 创建 二 阶 马尔 可 夫 


链 ， 如 图 9-2 所 示 。 下 面 来 看 看 它 的 工作 原理 。 

















图 9-2: 用 符号 表 树 表示 的 二 阶 马尔 可 夫 链 ， 数 据 源 于 前 面 所 举 的 暑假 活动 的 示例 








注 5: 




















这 个 世界 的 应 该 是 可 爱 的 小 猫 。 


事实 上 ， 这 是 本 书 中 唯一 一 段 两 位 作者 不 能 达成 一 致 的 内 容 ， 因 为 其 中 一 位 作者 认为 ， 很 明显 ， 拯 救 
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根据 图 9-2,“ 周 一 ,洞穴 探 险 ， 周 二 ， 在 六 池 边 躺 着 ”编码 后 的 结果 为 0 1 10 1110， 总 共 
8 个 二 进 制 位 。 相 比 之 下 ， 如 果 想 将 10 个 状态 都 遍历 一 次 ， 那 么 编码 同样 的 数据 最 终 需 要 
的 二 进 制 位 数 肯 定 会 超过 12。 























从 技术 角度 来 看 ， 为 压缩 而 建立 的 马尔 可 夫 链 遵循 的 许多 规则 与 前 面 介绍 的 自 适 应 统计 编 
码 (参见 第 2 章 ) 相同 ， 比 如 读 取 符 号 之 后 再 动态 更 新 频率 表 ， 等 等 。 


1. 编码 
我 们 以 为 字符 串 “TOTOTO” 创 建 马尔 可 夫 链 为 例 来 说 明 整 个 编码 过 程 。 





(1) 首先 创建 一 张 仅 包含 字符 < literal > 的 一 阶 表 ， 其 出 现 概率 为 100%， 具 体 如 下 表 和 下 
图 所 示 。 





一 阶 字符 ( 符号 的 整体 出 现 概率 ) “出现 频率 ” 码 字 
<literal > 100% 0 


输入 : TOTOTO 
(2) 接着 读 取 第 一 个 字符 ， 这 是 一 个 新 符号 “T”。 
(3) 更 新 一 阶 表 使 其 包含 字符 “T”， 并 相应 地 调整 字符 的 出 现 概率 ， 调 整 后 的 表 如 下 所 示 。 











一 阶 字符 

字符 出 现 频率 码 字 
工 50% i 

< literal > 50% 0 


(4) 输出 < literal > 对 应 的 码 字 和 字符 “T”， 如 下 图 所 示 。 


输出 流 : 0T 
输入 : TOTOTO 


(5) 从 输入 流 中 读 取 下 一 个 字符 ， 其 值 为 “90 ， 它 同样 是 一 个 新 符号 。 

(6) 更 新 一 阶 表 使 其 包含 字符 “0”， 并 再 次 调整 字符 的 出 现 概率 。 

(7) 接 下 来 调整 符号 的 码 字 ， 以 包含 所 有 的 字符 并 使 其 满足 前 缀 性质， 调整 后 的 表 如 下 
所 示 。 














一 阶 字 符 

字符 出 现 频 率 码 字 
工 33% 0001 
O 33% 001 
< literal > 33% 01 








(8) 输出 < literal > 对 应 的 码 字 和 字符 “0”， 现 在 的 输出 流 为 0T01O， 如 下 图 所 示 。 











输出 流 : 0T010 
输入 : TOTOTO 


(9) 继续 读 取 下 一 个 字符 ， 其 值 为 “T”， 它 已 在 一 阶 表 中 。 

(10) 更 新 一 阶 表 中 各 字符 的 出 现 概率 。 

(11) 交换 一 阶 表 中 字符 对 应 的 码 字 ， 使 出 现 概率 最 大 的 字符 其 码 字 最 短 ， 交 换 后 的 结果 如 
下 表 所 示 。 




















一 阶 字 符 

字符 出 现 频 率 ” ” 码 字 
工 50% 01 

O 25% 001 
< literal > 25% 0001 














(12) 将 字符 “T” 对 应 的 码 字 输出 ， 其 值 为 01， 现 在 的 输出 流 为 0T01 0 01， 如 下 图 所 示 。 

















输出 流 : 0T010O 01 
输入 : OTO 











(13) 继续 读 取 下 一 个 字符 ， 其 值 为 “9 。 
(14) 更 新 一 阶 表 中 各 字符 的 出 现 概率 ， 并 保持 其 对 应 的 码 字 不 变 。 














| 
字符 出 现 频率 ” 码 字 
下 40% 01 
O 40% 001 
<literal > 20% 0001 


(15) 将 字符 “0” 对 应 的 码 字 001 添加 到 输出 流 ， 这 样 当前 的 输出 流 为 0T01 O 01 001。 
(16) 现在 ， 通 过 建立 第 二 个 符号 码 字 对 应 表 来 创建 马尔 可 夫 链 中 的 二 阶 链接 ， 它 表示 的 是 
“T” 后 的 符号 ， 如 下 表 和 下 图 所 示 。 














二 阶 字符 ( “T” 后 的 符号 出 现 概率 ) 





字符 出 现 频率 ” ” 码 字 

O $50% 0 

<literal > $50% 1 
输入 : TO 
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(17) 继续 从 输入 流 中 读 取 下 一 个 符号 ， 还 是 “T”。 
(18) 更 新 一 阶 表 中 字符 的 出 现 概率 并 保持 其 对 应 的 码 字 不 变 ， 如 下 表 所 示 ,，“T 值 之 后 ”的 





二 阶 表 则 保持 不 变 。 
一 阶 字符 
字符 出 现 频 率 ” 码 字 
T 50% 01 
O 33% 001 


<literal> 17% 0001 


(19) 将 “T” 对 应 的 码 字 01 输出 ， 当 前 的 输出 流 为 0T01 O01 001 01。 
(20) 现在 ， 为 “0” 后 的 符号 建立 一 张 二 阶 表 ， 如 下 表 和 下 图 所 示 。 





二 阶 字 符 ( “9” 后 的 符号 出 现 概率 ) 


字符 出 现 频率 ” 码 字 
T 100% 0 
输入 : 


0 

CD 读 取 最 后 一 个 符号 “0”。 

(22) 这 里 ， 可 以 利用 “T 后 ”的 二 阶 表 ， 并 输出 0 作为 最 后 一 个 符号 ,因此 最 终 的 输出 流 
为 0T01 O01 001 010。 





瞧 ， 我 们 想 要 的 压缩 ! 


2. 解码 
下 面 对 最 终 的 输出 流 进行 解码 ， 以 验证 上 面 的 步骤 确实 可 行 。 

















(1) 读 取 0， 我 们 知道 这 是 一 个 字面 值 符号 ， 因 此 建立 一 张 一 阶 上 下 文 表 (概率 为 100%， 
以 下 都 将 省 上 略 百 分 号 ， 只 写 数字 )。 
0TOl1O01001010 

(2) 读 取 字符 “T”， 它 同样 是 个 字面 值 ， 将 它 加 入 一 阶 表 并 更 新 字符 的 出 现 概率 (两 个 字 
符 出 现 概率 为 50/50)， 并 将 TT 输 出 。 

(3) 读 取 “01”， 根 据 一 阶 表 ， 它 还 是 个 字面 值 。 

(4) 读 取 “0O”， 更 新 一 阶 表 (3 个 字符 出 现 概率 为 33/33/33)， 并 将 “O” 输 出 。 

(5) 读 取 “01”， 根 据 一 阶 表 ， 其 对 应 的 字符 为 “T”"， 将 “T” 输 出 并 再 次 更 新 一 阶 表 中 字 
符 的 出 现 概率 (现在 为 3 个 字符 的 出 现 概率 为 50/25/25)。 

(6) 读 取 “001”， 根 据 一 阶 表 ， 其 对 应 的 字符 为 “0”， 将 “O” 输 出 并 更 新 一 阶 表 中 字符 
的 出 现 概率 (现在 为 3 个 字符 的 出 现 概率 为 40/40/20)。 

(7) 对 “T” 之 后 的 符号 建立 二 阶 表 。 




















(8) 读 取 “01”， 其 对 应 的 字符 为 “T”， 将“T” 输 出 并 更 新 一 阶 表 中 字符 的 出 现 概 率 ( 现 
在 为 3 个 字符 的 出 现 概率 为 33/33/33)。 

(9) 对 “O” 后 的 符号 建立 二 阶 表 。 

(10) 读 取 “0”， 前 面 的 字符 是 “T”， 在“T 后 ”的 二 阶 表 中 寻找 0， 得 到 “0”,， 将 “0O” 
输出 。 


这 样 就 将 输入 流 解码 为 源 字符 串 。 
当面 对 更 多 的 符号 、 更 长 的 字符 串 时 ， 同 样 可 以 这 样 做 ， 而 且 正 如 你 看 到 的 那样 ， 情 况 很 


快 就 会 变 得 很 复杂 。 


3. 压缩 
既然 如 此 复杂 ， 那 么 又 如 何在 压缩 方面 有 所 收获 呢 ? 









































当 应 用 到 压缩 上 ， 马 尔 可 夫 链 可 以 让 我 们 用 更 少 的 二 进 制 位 数 对 相 邻 的 符号 编码 。 


我 们 来 看 看 二 阶 表 ， 两 个 二 阶 表 的 码 字 中 都 包括 0 这 一 最 短 的 可 能 码 字 。 由 于 这 里 使 用 了 
前 面 的 符号 来 区 分 上 下 文 ， 因 此 同样 的 VLC 可 以 使 用 两 次 ， 从 而 节省 了 空间 。 换 一 种 说 
法 就 是 ， 每 个 上 下 文 都 有 自己 的 VLC 空间 ， 所 以 可 以 使 用 同样 的 VLC。 


如 果 仙 到 更 多 的 符号 和 更 长 的 输入 流 ， 我 们 就 可 以 建立 更 多 阶 的 上 下 文 。 以 英语 为 例 ，T 
是 一 个 上 下 文 ， 当 它 后 面 跟着 百 时 ，TH 就 又 是 一 个 上 下 文 ， 当 其 后 跟着 E、I、U、O 和 
A 时 ， 又 会 形成 新 的 上 下 文 。 

















虽然 字母 U 出 现 的 概率 只 有 2.7%， 这 意味 着 如 果 不 考虑 上 下 文 的 话 ， 分 配给 它 的 码 字 就 会 
比较 长 ， 但 是 如 果 有 了 “出 现在 Q 后 ”这 个 特定 的 上 下 文 ， 分 配给 它 的 码 字 就 会 短 很 多 。 

















这 使 得 马尔 可 夫 链 格外 强大 。 


9.1.2 ”实际 的 实现 
值得 指出 的 是 ， 没 有 人 真正 地 使 用 马尔 可 夫 链 来 压缩 数据 ， 至 少 不 会 用 前 面 说 的 方法 来 压缩 。 








下 面 考虑 一 种 很 坏 却 并 非 不 可 能 的 场景 假定 我 们 过 到 了 一 个 八 阶 上 下 文 的 马尔 可 夫 链 。 





这 意味 着 对 每 个 节点 来 说 ， 它 的 深度 都 为 8 且 拥 有 256 个 子 节点 。 也 就 是 说 ， 需 要 256" 字 
节 或 者 说 16 个 艾 字 节 “来 表示 这 张 表 。 这 个 数 实 在 是 太 大 了 ， 即 使 是 按照 现代 计算 标准 来 
说 也 太 大 了 。 正 因为 如 此 ， 人 们 创造 了 各 种 衍生 算法 ， 这 些 算 法 所 需要 的 内 存 要 比 一 般 的 
马尔 可 夫 链 算法 小 ， 性 能 也 更 好 一 些 。 其 中 ， 最 值得 关注 的 是 部 分 匹配 预测 算法 和 上 下 文 
混合 算法 ， 下 面 来 介绍 这 两 种 算法 。 




















注 6: 即 17 179 869 184 GB。 
注 7: 写 这 和 句 话 的 时 候 还 是 2015 年 ， 当 时 双核 移动 设备 还 是 这 个 地 球 上 的 绝对 主流 。 
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9.2 ”部 分 匹配 预测 算法 
要 使 马尔 可 夫 链 算法 变 得 实用 ， 就 必须 要 解决 内 存 消耗 问题 与 计算 性 能 问题 ， 即 使 用 最 佳 
链 来 编码 。John Cleary 与 和 Ian Witten 于 1984 年 “提出 了 马尔 可 夫 链 算法 的 一 种 具体 实现 ， 
并 称 之 为 部 分 匹配 预测 算法 (prediction by partial matching，PPM) ， 该 算法 在 内 存 消耗 与 
计算 性 能 方面 表现 都 还 不 错 。 与 马尔 可 夫 链 类 似 ，PPM 算法 同样 通过 前 个 符号 的 上 下 
文 来 决定 第 N+ 1 个 符号 最 有 效 的 编码 方式 。 


一 般 来 说 ， 简 单 马 尔 可 夫 链 会 采用 比较 直接 的 实现 方式 ， 即 读 取 当 前 符号 并 判断 它 是 否 是 
现 有 链条 的 延续 ，PPM 算法 的 实现 恰好 相反 。 给 定 输入 流 中 的 当前 符号 ，PPM 算法 会 向 
前 扫描 YX 个 符号 ， 并 根据 前 V 个 符号 的 上 下 文 来 决定 当前 符号 的 出 现 概率 。 如 果 在 入 个 
符号 的 上 下 文中 ， 当 前 符号 的 出 现 概 率 为 0，PPM 算法 就 会 将 上 下 文 符号 的 个 数 减 少 为 
N-1。 如 果 没 有 在 任何 上 下 文中 发 现 匹 配 ， 就 会 做 出 固定 的 预测 。 下 面 举 个 例子 。 

















(1) 假定 我 们 在 压缩 某 个 输入 流 时 遇见 “HERE” 这 个 单词 好 几 次 ， 因 此 “HERE” 就 变 成 
本 开交 之 富 二 

(2) 在 之 后 的 其 个 地 方 ， 编 码 器 又 遇 到 了 “THERE” 并 且 当 前 正在 压缩 的 是 R 字符 。 

(3) 在 三 阶 (符号 ) 上 下 文中 ，R 之 前 的 符号 是 “THE”。 

(4) 然而 ， 编 码 器 从 来 没有 见 过 “THER”， 只 见 过 “THE ”(E 后 有 一 个 空格 )。 

(5) 因此 ， 当 前 字符 R 出 现 的 概率 为 “0”。( 也 就 是 说 ， 在 给 定 前 3 个 符号 的 情况 下 ，R 从 
来 没有 出 现 过 。) 

(6) 此 时 ，PPM 算法 会 尝试 二 阶 (符号 ) 上 下 文 ， 将 “HER” 匹 配 为 一 个 链条 。 

(7) 这 样 一 来 就 成 功 了 ， 因 为 “HERE” 在 此 之 前 已 出 现 过 多 次 ， 为 “HE” 创 造 了 二 阶 上 下 
文 的 语 境 。 

(8) 因此 ， 基 于 二 阶 上 下 文 链 “HE”， 字 符 R 的 出 现 概率 不 再 为 0。 


接 下 来 ， 我 们 来 看 看 更 正式 的 步 又 描述 。 


(1) 编码 器 从 输入 流 中 读 取 下 一 个 字符 “S 。 

(2) 编码 器 扫描 最 近 读 取 的 YX 个 字符 ， 也 就 是 阶 的 上 下 文 。 

(3) 根据 最 近 读 取 的 这 些 字符 ， 编 码 器 确定 字符 “S” 出 现在 特定 的 上 文 后 的 概率 P。 

(4) 如 果 这 一 概率 为 0， 编码 器 就 会 输出 转 义 标记 ， 这 样 解码 器 就 能 反映 这 一 过 程 。” 

(5) 然后 ， 编 码 器 继续 从 第 二 步 的 扫描 操作 开始 ， 只 不 过 扫描 的 字符 个 数 由 NN 变 为 N-1， 
直到 所 得 的 概率 了 不 为 0 或 者 没有 字符 可 以 继续 扫描 。 

















注 8: 参见 J Cleary 与 I Witten 的 论文 Data Compression Using Adaptive Coding and Partial String Matching, 
载 于 JEEE Transactions on Communications，1984 年 ， 第 21 卷 ,第 4 期 第 390~402 页 。 

注 9: 是 的 ， 你 理解 得 完全 正确 ， 这 意味 着 如 果 一 个 符号 之 前 没有 出 现 过 ， 那 么 PPM 算法 会 在 输出 最 后 一 
个 字面 值 符号 之 前 将 NN 个 “ 转 义 码 ” 输 出 。 这 一 算法 很 多 变 体 (包括 PPMA、PPMB、PPMC、PPMP 
和 PPMX) 之 间 的 主要 区 别 ， 就 在 于 它们 在 处 理 转 义 码 过 程 中 的 细微 差别 。 












































A 
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(6) 如 果 没 有 字符 可 以 继续 扫描 ， 就 为 P 赋 上 固定 的 概率 值 (例如 基于 字符 出 现 频率 的 概 
率 值 )。 
(7) 最 终 编码 器 通过 统计 编码 的 形式 以 概率 了 编码 字符 “S”。 


9.2.1 单词 查找 树 

要 实现 PPM 算法 ， 我 们 遇 到 的 首要 问题 是 如 何 创建 一 种 数据 结构 ， 可 以 将 从 输入 流 中 读 
取 的 每 个 字符 的 所 有 上 下 文 (0~N 阶 ) 存储 起 来 ， 并 且 在 需要 时 能 快速 定位 到 。 在 简单 的 
情况 下 ， 可 以 通过 一 种 被 称 为 单词 查找 树 (trie") 的 特殊 树 结构 来 实现 这 样 的 需求 ， 这 种 
树 的 每 个 分 支 都 表示 一 种 上 下 文 。 


下 面 以 字符 串 “ABAC” 为 例 ， 来 创建 一 棵 PPM 单词 查找 树 ， 该 字符 串 所 允许 的 最 大 上 下 
文 ” 为 二 阶 ， 如 图 9-3 所 示 。 

















输入 : A 输入 : B 输入 : A 输入 : C 


() () 
Fd Bd 四 站 


图 9-3: 二 阶 上 下 文 条 件 下 创建 的 PPM 单词 查找 树 ， 树 的 每 一 层 都 表示 一 个 上 下 文 ， 根 节点 的 子 节 
点 表示 的 是 一 阶 上 下 文 ， 字 符 右 边 的 数字 表示 的 是 在 此 上 下 文中 该 字符 出 现 的 次 数 


(1) 读 取 第 一 个 字符 “A”， 将 布点 [A,1] 作为 子 节 点 添加 到 树 的 根 节 点 上 ， 表 示 的 意思 是 字 
符 “A” 在 一 阶 上 下 文中 已 经 出 现 过 一 次 。( 根 节点 的 子 布点 代表 的 是 一 阶 上 下 文 ， 根 
节点 的 孙 节 点 代表 的 是 二 阶 上 下 文 ， 以 此 类 推 。) 

(2) 读 取 第 二 个 字符 “B”， 此 时 需要 为 单词 查找 树 增加 两 个 子孙 市 点 。 

a. 首先 增加 一 阶 上 下 文 节 点 [B,1]， 当 “B” 是 上 下 文 链 的 首 字母 时 ， 这 样 做 是 有 用 的 。 
b. 其 次 还 需要 在 一 阶 上 下 文 市 点 [A,1] 下 增加 一 个 二 阶 上 下 文 市 点 [B,1]， 它 表示 的 是 
迄今 为 止 从 输入 流 中 读 取 的 字符 链 “AB”。 

(3) 读 取 第 三 个 字符 “A”， 这 里 有 一 些 值 得 注意 的 地 方 。 

a. 首先 ， 需 要 将 一 阶 上 下 文 节点 “A” 的 出 现 次 数 更 新 为 2 (因为 一 阶 节 点 A 在 之 前 已 

出 现 过 )。 










[| 贺 回 度 




















注 10: 这 个 词 就 是 这 样 拼写 ， 请 相信 我 们 并 找 出 它 这 样 拼写 的 原因 。 
注 11:， 限制 上 下 文 的 阶 数 是 控制 复杂 性 的 一 个 方法 。 
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b. 还 需要 将 [A,1] 作为 每 个 [B,1] 的 子 节点 添加 到 树 上 ， 它 们 分 别 表示 的 是 一 阶 上 下 文 
“BA” 和 二 阶 上 下 文 “ABA”。 

(4) 读 取 最 后 一 个 字符 “C”， 还 是 依照 前 面 的 过 程 增加 子孙 节点 ， 不 过 有 一 些小 的 不 同 。 

a. 首先 ， 增 加 一 阶 上 下 文 节 点 [C,1]。 

b. 下 一步 是 在 所 有 的 二 阶 节 点 [A,*] 下 增加 三 阶 节点 [C,1]。 可 以 看 到 最 左边 从 [B,1] -> 
[A,1] 这 条 链 上 ，[C,1] 顺利 地 加 上 去 了 ,但 是 在 右边 增加 新 节点 的 话 就 会 超过 前 面 
规定 的 上 下 文 高 度 ， 因 此 这 里 没有 增加 新 节点 。 

c. 最 后 一 步 ， 将 [C,1] 添加 到 一 阶 上 下 文 节点 [A,2] 下 作为 它 的 子 节 点 。 





























创建 这 样 的 查找 树 是 有 用 的 ， 给 定 当 前 的 状态 ， 我 们 很 快 就 能 将 和 N 减 半 阶 上 下 文 查找 出 
来 。 例 如 ， 假 定 当 前 字符 是 “C”， 那 么 它 的 二 阶 上 下 文 是 “BA”, 一 阶 上 下 文 是 “A”。 这 
与 实际 完全 符合 ， 因 为 它 表示 的 就 是 编码 “ABAC” 时 在 “C” 之 前 的 一 个 和 两 个 符号 的 
请 动 窗口 。 























在 限定 二 阶 上 下 文 的 情况 下 ， 可 以 用 这 棵 查找 树 来 表示 输入 字符 串 的 所 有 子 字符 串 (如 
图 9-4 所 示 ) : B、BA、BAC、C、A、AB、AC 和 ABA。 




















图 9-4: 查找 树 表示 的 子 字符 串 ，B、BA、BAC、C、A、AB、AC 和 ABA 


9.2.2 ”字符 的 压缩 

除了 能 提供 高 效 的 存储 以 及 快速 提取 子 字符 串 外 ， 单 词 查找 树 的 每 一 层 都 会 记录 字符 出 现 
的 次 数 。 有 了 这 些 数据 ， 统 计 编码 算法 就 能 构建 出 字符 出 现 的 概率 表 ， 并 根据 概率 表 为 每 
个 字符 分 配 相应 的 码 字 ， 如 图 9-5 所 示 。 























图 9-5: PPM 算法 单词 查找 树 以 及 可 以 用 来 编码 的 符号 码 字 对 应 表示 例 


实际 上 ， 对 树 的 每 一 层 ， 只 需要 考虑 这 一 层 的 兄弟 节点 并 将 出 现 次 数 归 一 化 就 能 得 到 相 
应 的 概率 。 例 如 ， 一 阶 上 下 文中 节点 [B,1]、[C,1] 和 [A,2] 中 出 现 次 数 对 应 的 概率 分 别 为 
25%、25% 和 50%。 

此 外 ， 注 意 因为 在 二 阶 上 下 文中 编码 每 个 字符 都 只 用 了 1 个 二 进 制 位 ， 所 以 每 个 字符 都 节 
省 了 1 个 二 进 制 位 。 

只 要 将 第 3 章 介绍 的 数据 结构 改 一 改 ， 你 就 能 以 简单 的 方式 达到 上 述 效 果 。 
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9.2.3 选择 一 个 合理 的 N 值 

那么 V 值 应 该 是 多 少 呢 ? PPM 算法 会 选择 一 个 YX 值 ， 然 后 再 根据 这 样 的 上 下 文 长 度 去 寻 
找 匹 配 。 如 果 没 有 找到 匹配 ， 就 会 选择 更 短 的 上 下 文 继续 寻找 。 这 样 看 来 ， 似 乎 上 下 文 越 
长 (也 就 是 的 取 值 越 大 )， 预 测 的 效果 越 好 。 然 而 ， 大 多 数 PPM 算法 的 实现 在 综合 考虑 
所 需 内 存 、 处 理 速 度 以 及 压缩 率 后 ， 将 N 的 值 设 定 为 5 或 者 6。 


也 有 一 些 PPM 算法 的 变 体 ， 例 如 PPM ， 尝 试 着 使 N 的 取 值 变 大 ， 并 且 是 变 得 非常 大 。 这 
样 做 ,不仅 需 要 一 种 新 的 查找 树 结构 ， 而 且 需 要 的 计算 资源 也 远 比 PPM 多 ， 但 其 结果 则 
比 PPM 算法 好 ， 能 多 节省 约 6% 的 存储 空间 。 


9.2.4 ”处 理 未 知 的 符号 

PPM 算法 (模型) 的 大 部 分 优化 工作 是 在 处 理 输入 流 中 那些 之 前 没有 出 现 过 的 字符 。 显 
而 易 见 的 处 理 方法 是 通过 创建 “从 没 见 过 ”的 符号 来 触发 转 义 序列 (escape sequence) ， 但 
是 那些 没有 见 过 的 符号 应 该 赋 什 么 样 的 概率 值 呢 ? 这 通常 被 称 为 零 频 问题 (zero-frequency 
problem ) 。 
































有 一 种 PPM 算法 的 变 体 使 用 拉 普 拉 斯 估计 (Laplace estimator) ， 赋 给 所 有 “从 疫 见 过 ”的 符 
号 相同 的 伪 计 数值 1。 还 有 一 种 被 称 为 PPMD 的 变 体 是 这 样 处 理 这 一 问题 的 ,“ 从 没 见 过 ” 
的 符号 每 使 用 一 次 ， 伪 计数 值 就 加 1。( 换 名 话说 ，PPMD 算法 是 这 样 估算 新 出 现 符号 的 概率 
的 ， 即 新 符号 的 概率 等 于 不 同 符号 的 个 数 与 观察 到 的 所 有 符号 的 出 现 次 数 之 比 。) 




















PPMZ 算法 的 处 理 更 有 意思 。 刚 开始 时 它 的 处 理 方式 与 PPM 相同 ， 都 试图 在 Y 阶 上 下 
文 下 找 出 当前 符号 的 匹配 。 当 找 不 到 这 样 的 匹配 时 ， 它 就 会 换 上 完全 不 同 的 算法 局 部 阶 
估计 法 (Local-Order-Estimator) ， 而 使 用 的 还 是 基本 的 PPM 模型 ， 只 不 过 预测 的 算法 完 
全 不 同 。 


9.3 上 下 文 混合 算法 
对 PPM 算法 的 改进 ， 让 我 们 有 了 新 的 数据 压缩 算法 ，PAQ 系列 算法 。 特 别 是 在 PPMZ 算 
法 中 ， 对 于 符号 如 何 去 啊 应 匹配 ， 人 们 党 试 了 多 种 类 型 的 上 下 文 。 


随 着 时 间 的 推移 ， 这 一 概念 逐渐 被 称 为 上 下 文 混合 算法 (context mixing)， 即 为 了 找 出 给 
定 符号 的 最 佳 编码 ， ai 统计 模型 。 例 如 ， 通 过 一 个 We 
测 在 所 有 的 经 常 性 活动 (比如 营救 小 猫 之 类 ) 中 你 去 健身 房 的 概率 有 多 大 ， 用 另外 一 个 
计 模 型 来 预测 吃 了 太 多 意大利 面 后 的 12 个 小 时 内 你 去 健身 房 的 概率 。 在 面 对 a 
去 健身 房 的 概率 有 多 大 ”这 样 的 问题 时 ， 每 个 模型 会 给 出 不 同 的 概率 。 由 于 通常 情况 下 你 
去 健身 房 的 概率 为 20%， 而 且 离 你 吃 完 意 大 利 面 已 经 有 6 个 小 时 了 ， 因 此 现在 去 健身 房 的 
概率 很 可 能 是 50%。 上 下 文 混 合算 法 就 是 综合 去 利用 这 些 概率 。 
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关于 数据 压缩 ， 上 下 文 混合 算法 也 带 来 了 以 下 两 个 很 有 意思 的 问题 。 


。 应 该 使 用 什么 样 的 模型 ? 
。 应 该 怎样 将 这 些 模 型 结合 起 来 ? 


9.3.1 模型 的 类 型 
正如 前 面 讨论 的 那样 ， 对 数据 压缩 来 说 ， 相 邻 性 是 一 个 很 重要 的 课题 。LZ、RLE、 增 量 编 
码 以 及 BWT 这 些 算法 都 是 基于 这 样 的 假设 : 数据 的 相 邻 性 与 它 的 最 佳 编 码 方 式 有 关 。 


在 介绍 马尔 可 夫 链 时 ， 我 们 也 很 容易 持 有 同样 的 观点 。 创 建 基于 相 邻 性 的 上 下 文 〈 诸 如 
“A 位 于 B 后 ”之 类 ) 很 容易 ， 但 实际 上 ， 相 邻 性 只 是 在 符号 之 间 建 立 上 下 文 相关 的 一 个 
方法 。 例 如 ， 你 可 以 创建 一 个 所 有 下 标 值 为 偶数 的 符号 上 下 文 ， 或 者 创建 取 值 聚集 在 某 个 
数值 范围 内 的 符号 上 下 文 。 总 的 来 说 ， 相 邻 性 和 局 部 性 都 只 是 上 下 文 的 最 简单 形式 ， 而 绝 
不 是 唯一 的 形式 。 


有 了 这 种 认识 后 ， 去 数据 流 中 寻找 一 些 与 上 下 文 以 及 相 邻 性 完全 没有 关系 的 其 他 信号 ， 来 
帮助 我 们 找 出 编码 当前 符号 的 最 佳 方 法 ， 也 就 很 容易 从 逻辑 上 理解 了 。 我 们 所 说 的 模型 其 
实 就 是 用 来 识别 和 描述 符号 之 间 的 关系 。 通 过 对 数据 的 建 模 ， 我 们 就 能 对 数据 中 包含 的 各 
种 属性 了 解 得 更 多 ， 因 而 也 就 越 能 描述 好 当前 的 符号 。 


实际 上 ， 模 型 可 以 有 很 多 种 ， 需 要 处 理 的 数据 类 型 不 同 ， 模 型 也 会 不 同 。 


例如 ， 图 像 数 据 更 多 地 关注 二 维 的 局 部 性 ， 也 就 是 说 一 个 像素 的 颜色 通常 与 上 下 左右 四 个 
方向 相 邻 像素 的 颜色 有 关 ， 可 以 利用 这 一 信息 对 图 像 进行 压缩 。 然 而 ， 这 一 模型 不 适用 于 
文本 ， 在 文本 中 通常 找 不 出 这 样 的 规律 ， 即 一 个 字符 与 其 上 一 行 或 下 一 行 同样 位 置 的 字符 
无 关 。 


在 编程 中 ， 当 把 高 级 的 指令 编译 为 字 市 码 后 ， 就 会 呈现 出 完全 不 同 的 模型 。 一 个 字 市 可 以 
描述 指令 ,后 面 跟着 长 度 不 等 的 字 市 描述 函数 的 输入 。 由 于 代码 往往 有 相同 的 模式 ， 因 此 
你 完全 可 以 按照 下 面 的 方式 建 模 : 当 看 到 “ 跳 转 到 此 指令 ”命令 后 ， 你 极 有 可 能 会 看 到 附 
近 出 现 “ 将 变量 压 入 调用 栈 ” 之 类 的 命令 。 因 此 ， 在 这 种 情况 下 ， 相 邻 的 字 节 不 重要 ， 重 
要 的 是 命令 本 身 。 


音乐 是 另外 一 种 完全 不 同 的 数据 ， 你 可 以 建立 模型 来 表示 低音 旋律 或 者 吉他 即兴 重复 ， 并 
考虑 其 中 涉及 的 音阶 或 者 变奏 过 渡 的 长 度 。 


关键 在 于 ， 你 如 果 对 数据 足够 了 解 并 且 能 正确 地 提问 ， 就 会 有 成 千 上 万 种 建 模 的 方法 。 因 
此 ， 在 某 些 情况 下 问题 的 难度 就 增加 了 ， 因 为 现在 讨论 的 不 再 是 通用 算法 ， 而 更 多 的 是 提 








































































































注 12: 除非 你 正在 压缩 的 文本 是 文字 游戏 或 是 一 些 奇怪 的 诗歌 。 
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问 :“ 你 是 否 对 数据 了 解 得 足够 多 ， 可 以 正确 地 对 其 进行 建 模 ?“ 
作为 上 下 文 混合 算法 的 先驱 压缩 器 之 一 ，PAQ 包含 以 下 模型 : 





。 nn 元 语法 (n-grams), 这 里 上 下 文 是 指 在 被 预测 符号 之 前 的 n 个 字符 (与 PPM 算法 相同 ); 
。 上 整 词 n 元 语法 (whole-word n-grams)， 忽 略 大 小 写 和 非 字 母 字 符 (对 文本 文件 很 有 用 ) ; 
“ 稀 政 ”上下文 ， 例 如 ， 被 预测 符号 之 前 的 第 二 个 和 第 四 个 字 节 (对 某 些 和 二进制 文件 很 
有 用 ) ; 
。 “模拟 ” 上 下 文 ， 由 前 面 的 8 位 或 者 16 位 字 节 的 高 字 节 位 组 成 (对 多 媒体 文件 很 有 用 ) ， 
。 二 维 上 下 文 (对 图 像 、 表 和 电子 表格 很 有 用 ) ， 行 的 长 度 由 找 出 的 重复 字 节 模式 的 步 长 
决定 ; 
只 针对 特定 文件 类 型 的 特殊 模型 ， 例 如 x86 可 执行 文件 ， BMP、TIFF 或 者 JPEG 格式 的 
图 片 。 

















PAQ 不 是 小 打 小 阅 ， 它 在 大 文本 压缩 基准 测试 (Large Text Compression Benchmark) 中 经 
向 排名 靠 前 ， 它 的 最 新 版 本 之 一 ZPAQ 在 压缩 人 类 DNA 信息 的 比赛 中 获得 了 第 二 名 。 





9.3.2 混合 的 类 型 

随便 一 问 ， 给 定 两 个 值 ， 你 会 怎样 将 它们 综合 起 来 呢 ? 取 它 们 的 平均 值 ? 还 是 算 两 者 之 
和 ? 抑或 根据 喜好 或 者 之 前 的 输入 赋 以 不 同 的 权重 ? 当 你 开始 使 用 多 个 模型 时 ， 这 类 问题 
会 变 得 更 加 复杂 。 如 果 面 对 的 是 一 组 50 个 输入 ， 你 又 会 怎样 将 这 些 模型 结合 起 来 以 达到 
最 好 的 压缩 效果 呢 ? 



































幸运 的 是 ， 统 计 学 已 经 基本 上 帮 有 我 们 解决 了 这 个 问题 。 将 不 同 模型 的 输出 结合 起 来 有 以 下 
两 种 方法 。 


一 种 是 线性 混合 (linear mixing)， 它 是 将 各 个 模型 的 预测 值 加 权 平 均 的 过 程 ， 最 终 的 值 则 
取决 于 证 据 权 重 。 


在 前 面 举 的 例子 中 ， 我 们 想 知 道 的 是 你 现在 去 健身 房 的 概率 ， 而 给 定 的 值 是 你 多 久 去 一 次 
健身 房 以 及 吃 一 次 意大利 面 。 这 两 个 给 定 的 值 有 不 同 的 证 据 权 重 ， 其 中 的 一 个 值 由 于 有 更 
多 的 试验 数据 或 者 说 样本 数据 ， 因 而 更 可 信 。 例 如 ， 如 果 你 是 在 人 的 一 生 这 个 时 间 层 面 芳 
虑 意大利 面 如 何 影响 你 去 健身 房 ， 那 么 就 会 有 更 多 的 样本 数据 ， 因 此 相应 的 取 值 也 就 比 你 
上 周 去 健身 房 的 次 数 更 可 信 “。 因 此 , 对 这 样 的 值 我 们 会 在 混合 模型 中 给 予 更 高 的 权重 , 因 
为 它 更 可 信 。 


























相 比 而 言 ， 逻 辑 混合 则 要 复杂 很 多 。 








注 13; 我 们 下 周 要 去 健身 房 ， 因 为 听 说 新 开 了 一 个 旋转 课程 ， 想 去 看 看 。 
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我 们 知道 ， 在 线性 混合 中 ,没有 反馈 回路 来 说 明 在 预测 如 何 压缩 数据 时 我 们 赋 给 一 个 模型 
的 权重 是 否 正 确 。 因 此 ， 当 输入 数据 流 变 化 时 ， 模 型 的 权重 保持 不 变 ， 最 终 得 到 的 结果 不 
但 没有 压缩 ， 反 而 比 原来 需要 的 空间 还 大 。 








为 了 解决 这 个 问题 ,逻辑 混合 使 用 了 神经 网 络 (你 没有 看 错 ， 就 是 人 工 智能 中 的 神经 网 
络 ) 来 更 新 权重 ,而 更 新 的 依据 则 是 哪个 模型 在 过 去 给 出 了 最 准确 的 预测 。 这 里 的 关键 是 
修改 当前 的 权重 。 假 定 根 据 当 前 的 权重 ， 我 们 选择 了 模型 A 编码 某 个 符号 ， 编 码 后 的 长 
度 为 12 个 二 进 制 位 ， 而 模型 B 其 实 才 是 正确 的 选择 ， 它 只 需要 8 个 二 进 制 位 。 那 么 ， 编 
码 器 会 输出 12 个 二 进 制 位 ， 并 修改 模型 的 权重 ， 这 样 当 下 次 所 有 的 模型 输出 结果 相同 时 ， 
模型 B 有 更 大 的 机 会 被 选中 。 


逻辑 混合 的 缺点 是 ， 在 进行 数据 压缩 时 ， 它 需要 消耗 大 量 的 内 存 ， 同 时 运行 的 时 间 也 较 
长 。 如 果 看 一 些 在 LTCB 上 运行 的 ZPAQ， 你 会 发 现 压缩 1 G 的 文件 需要 14 G 的 内 存 。 这 
些 压缩 的 中 间 数 据 都 需要 空间 去 存储 。 


9.4 下 一 代 技 术 


上 下 文 混 合算 法 给 数据 压缩 的 未 来 指明 了 方向 。 总 的 来 说 ， 如 果 对 所 需 的 内 存 与 运行 的 时 
间 不 加 限制 ， 同 时 还 有 足够 的 数据 建 模 知 识 ， 那 么 最 优 压缩 就 是 个 已 解决 的 问题 。 这 有 可 
能 是 云 计 算 层 次 上 数据 压缩 的 下 一 个 大 的 解决 方案 。 对 于 那些 拥有 大 量 计算 资源 和 时 间 的 
公司 来 说 ， 只 要 它们 的 数据 科学 小 组 正确 地 理解 了 所 有 模型 ， 它 们 就 能 大 规模 地 进行 数据 
压缩 了 。 
































然而 这 种 情况 目前 还 没有 在 消费 市 场 上 出 现 。 由 于 需要 大 量 的 内 存 和 运行 时 间 ， 这 就 使 得 
上 下 文 混合 算法 很 难 适用 于 移动 设备 (至 少 在 本 书写 作 时 如 此 )。 然 而 实际 情况 是 ， 这 时 
的 数据 目标 与 前 面 的 完全 不 同 。 如 果 你 想 处 理 的 只 是 1~50 MB 的 数据 ， 那 么 即使 用 了 上 下 
文 混合 算法 ， 所 得 的 结果 也 会 和 很 多 其 他 的 算法 差不多 。 只 有 当 需 要 处 理 的 数据 量 很 大 、 
数据 很 复杂 并 且 一 直 在 变化 时 ， 上 下 文 混 合算 法 才能 真正 发 挥 作 用 。 

因此 ， 我 们 再 次 得 出 了 这 样 的 道理 : 对 数据 压缩 来 说 ， 同 样 没有 银 弹 。 无 论 是 哪个 数据 
集 ， 都 需要 有 思考 的 过 程 ， 对 信息 的 定义 和 处 理 进行 分 析 。 即 使 是 上 下 文 建 模 ， 虽 然 它 建 
立 的 目的 是 适应 数据 的 变化 ， 但 也 同样 依赖 于 人 们 所 建 的 信息 模型 。 
























































这 就 意味 着 一 件 事 是 确定 的 ， 即 数据 压缩 还 远 不 是 一 个 已 经 解决 了 的 问题 ， 在 这 个 领域 
内 ， 还 有 很 多 让 人 惊叹 的 事情 等 待 着 我 们 去 发 现 。 
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换个 话题 


到 目前 为 止 ， 本 书 主要 关注 特定 的 数据 压缩 算法 以 及 它们 通常 是 怎样 工作 的 。 虽 然 这 些 内 
容 中 包含 的 信息 很 多 ， 但 除非 你 打算 自己 实现 一 个 有 突破 性 的 数据 压缩 工具 ， 否 则 这 些 内 








容 的 主要 目的 还 是 帮助 你 理解 数据 及 其 压缩 。 现 在 ， 我 们 想 换个 话题 ， 谈 谈 数 据 压缩 应 用 
中 的 一 些 点 ， 以 及 它们 如 何 与 你 、 你 开发 的 项 目 以 及 眼前 的 世界 关联 。 











当前 压缩 可 以 分 为 两 类 ， 即 多 媒体 数据 压缩 (media-specific compression) 与 通用 压缩 (general 


purpose compression) ， 下 面 来 分 别 讨论 。 


10.1 


多 媒体 数据 压缩 


多 媒体 数据 压缩 工具 是 专门 设计 用 来 压缩 图 像 、 音 频 、 视 频 等 多 媒体 数据 的 。 一 般 来 说 ， 
你 的 应 用 程序 发 送 、 接 收 、 处 理 、 存 储 并 且 向 用 户 展示 得 最 多 的 就 是 这 些 类 型 的 内 容 。 俗 
话说 “一 图 胜 千言 "， 用 到 数据 压缩 上 ， 同 样 正确 。 一 张 1024 x 1024 的 RGB 色彩 模式 的 图 














片 ， 其 

















大 小 就 有 3 MB ， 如 果 用 ASCII 码 来 表示 字母 的 话 ， 同 样 的 空间 能 用 来 表示 3 145 728 
个 字母 。 相 比 而 言 ， 有 名 的 《 霍 比 特 人 》 一 书 只 有 95 022 个 单词 ， 如 果 假 定 平均 每 个 单词 
由 5 个 字母 组 成 ， 那 么 这 本 书 大 约 有 475 110 个 字母 。 也 就 是 说 ， 一 张 1024 x 1024 的 图 片 
所 占用 的 空间 ， 可 以 用 来 存放 约 6 本 《 霍 比 特 人 》 这 样 篇 幅 的 书 。 


这 也 是 为 什么 大 多 数 多 媒体 数据 压缩 工具 使 用 有 损 压缩 算法 。 有 损 压 缩 指 的 是 为 了 使 数据 
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压缩 得 更 小 ， 可 以 牺牲 多 媒体 的 质量 这 样 的 数据 转换 。 例 如 ， 一 张 1024 x 1024 的 图 片 ， 
如 果 使 用 8 


进 制 位 来 表示 红 绿 蓝 这 3 种 颜色 通道 ， 那 么 每 个 像素 就 需要 24 个 二 进 制 
片 的 大 小 为 3 MB。 然 而 ， 如 果 每 个 颜色 通道 只 用 4 个 二 进 制 位 表示 ， 那 
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么 每 个 像素 就 只 需要 12 个 二 进 制 位 ， 整 个 图 片 占用 的 空间 也 就 只 有 1.5 MB ， 但 同时 也 降 
低 了 图 片 的 色彩 质量 。 


有 损 数 据 转换 的 种 类 特别 多 ， 每 一 种 都 针对 特定 的 多 媒体 文件 〈 针 对 图 像 文件 的 就 不 大 适 
用 于 音频 文件 ) 和 内 容 类 型 ( 灰 度 图 像 与 全 彩 图 像 使 用 的 压缩 算法 同样 不 同 )。 除 了 这 些 
转换 是 有 损 的 外 ， 前 面 讨论 的 内 容 同 样 适用 于 有 损 压 缩 工 具 。 在 内 容 转换 为 更 容易 压缩 的 
状态 后 ， 你 可 以 继续 应 用 所 有 标准 转换 ， 例 如 LZ、BWT、RLE 以 及 增 量 压缩 ， 甚 至 可 以 
使 用 哈 夫 曼 编码 、 算 术 编 码 和 ANS。 关 键 在 于 ， 针 对 某 种 数据 类 型 找 出 最 佳 的 转换 方法 ， 
以 获得 最 好 的 结果 。 


本 书 没有 花 太 多 的 时 间 来 讨论 有 损 转 换 ， 这 是 有 意 为 之 的 ， 因 为 这 样 的 转换 实在 太 多 ， 并 
且 每 一 种 都 针对 特定 的 内 容 ， 可 以 说 每 种 多 媒体 类 型 都 需要 用 一 本 书 的 篇 幅 去 讨论 。 不 过 
不 用 担心 ， 第 12 章 会 介绍 一 些 重要 的 图 片 压缩 优化 的 细节 ， 不 过 没有 太 过 深入 。 


10.2 通用 压缩 


相 比 而 言 ， 通 用 压缩 工具 是 设计 用 来 压缩 除 多 媒体 数据 以 外 的 其 他 数据 。 像 DEFLATE、 
GZIP、BZIP2、LZMA 和 PAQ 这 些 算法 ， 都 是 将 各 种 无 损 转 换 结合 起 来 ， 用 来 压缩 诸如 
文本 、 源 代码 、 序 列 化 数据 以 及 二 进 制 内容 等 其 他 不 能 使 用 有 损 压 缩 工具 压缩 的 韭 多 媒体 
文件 。 这 方面 的 研究 同样 也 很 多 。 顺 便 说 一 下 大 文本 压缩 基准 测试 ， 有 很 多 通用 压缩 工具 
会 参与 这 项 压缩 大 文本 的 比赛 ， 以 比较 这 些 工具 的 各 种 性 能 指标 。 新 的 算法 还 在 不 断 出 
现 。 谷 歌 对 GZIP 算法 的 改进 已 产生 了 一 系列 的 压缩 工具 ， 如 Snappy、Zopfi、Gipfeli 以 
及 Brotli ”， 这 些 工具 努力 的 方向 是 为 了 实现 更 好 的 压缩 率 、 更 小 的 内 存 需求 和 更 快 的 解压 
速度 ， 但 是 每 个 的 侧重 点 不 同 。 


你 每 天 下 载 的 大 部 分 互联 网 内 容 是 用 这 些 算 法 中 的 一 种 压缩 的 。 标 准 的 HITP 协议 栈 允 
许 数据 包 使 用 GZIP 和 BZIP 编码 ， 现 在 又 多 了 一 种 Brotli (前 提 是 服务 器 端 和 客户 端 都 支 
持 )， 也 就 是 说 ， 网 页 、JavaScript 文件 、 留 言 以 及 商店 列表 这 些 内 容 都 会 在 解压 后 显示 到 
你 的 设备 上 。 

值得 指出 的 是 ， 很 多 数据 压缩 研究 人 员 ， 包 括 我 们 两 位 作者 ， 认 为 所 有 这 些 算法 都 陷入 
了 回报 率 递减 的 困境 。 不 妨 看 看 最 近 那 些 很 成 功 的 压缩 工具 (Brotli、LZHAM、LZFSE、 
ZSTD)， 我 们 发 现 有 以 下 趋势 : 研究 主题 的 变化 很 小 。 它 们 都 是 在 现 有 的 转换 上 使 用 一 些 








































































































注 1: 将 颜色 通道 从 8 个 二 进 制 位 减 为 4 个 二 进 制 位 ， 我 们 就 将 能 表示 的 颜色 数量 从 1600 多 万 种 减 为 4096 
种 ， 而 人 类 的 眼睛 能 识别 的 颜色 为 100 多 万 种 。 想 了 解 得 更 多 ， 可 以 查看 维基 百科 词 条 “三 原色 ” 





(Trichromacy) 。 
注 2: 是 不 是 不 太 相 信 ? 没有 关系 ， 你 可 以 先 了 解 一 下 JPG 格式 的 工作 原理 ， 或 者 复习 一 下 最 新 的 WebM 
格式 。 


注 3: Gipfeli、Zopfli 和 Brotli 的 命名 都 来 自 于 瑞士 面包 ， 或许， 可 以 将 谷歌 称 为 “一 家 算法 面包 店 ”。 
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技巧 或 是 进行 一 些 改变 ， 然 后 再 应 用 到 现 有 的 压缩 算法 上 ， 以 获得 某 些 小 的 提升 ， 而 且 获 
得 边际 提升 需要 的 资源 越 来 越 多 。 通 过 观察 各 种 各 样 的 基准 测试 ， 我 们 发 现 30%~50% 这 
样 比例 的 突破 已 经 不 存在 了 ， 更 多 的 是 经 过 大 量 努 力 后 ， 只 能 在 现 有 算法 的 基础 上 提高 
2%~10%。 


10.3 ”实践 中 的 数据 压缩 


我 们 希望 你 在 学 习 本 书 介绍 的 这 些 知识 后 ， 能 很 容易 地 将 它们 应 用 到 你 开发 的 应 用 程序 中 
去 。 还 有 一 些 内 容 我 们 特别 想 介绍 ， 这 些 内 容 可 以 帮助 你 更 多 地 了 解 如 何在 应 用 程序 的 开 
发 中 实现 那些 比较 容易 达到 的 目标 。 接 下 来 的 几 章 将 重点 放 在 理解 如 何 评估 数据 压缩 的 各 
种 指标 上 ， 并 给 你 一 些 关 于 图 像 数据 和 序列 化 数据 的 建议 ， 最 后 介绍 我 们 对 未 来 10 年 中 
数据 压缩 重要 性 的 宏观 思 


祝 你 学 习 之 旅 愉快 ! 

















换个 话题 | 137 


第 11 章 


评价 数据 压 纺 








在 让 压缩 影响 到 你 那 不 错 的 应 用 程序 的 每 个 部 分 之 前 ， 一 定 要 注意 其 中 涉及 的 权衡 取舍 及 
其 使 用 场景 。 并 不 是 每 个 算法 都 适用 于 所 有 的 使 用 场景 ， 在 某 些 情况 下 ， 同 一 压缩 格式 的 
不 同 实现 可 能 会 更 好 地 满足 你 的 需求 。 














因此 ， 当 谈 到 数据 压缩 时 ， 什 么 最 重要 呢 ? 


11.1 数据 压缩 的 使 用 场景 


我 们 从 以 下 关注 点 开始 讨论 ， 即 数据 是 在 哪里 压缩 、 存 储 和 解压 的 。 理 解数 据 是 从 哪里 来 
的 、 到 哪里 去 之 所 以 很 重要 ， 是 因为 编码 喜与 解码 缚 之 间 的 相互 作用 很 重要 ， 这 一 点 后 四 
会 有 更 多 的 讨论 。 首 先 ， 我 们 来 看 一 下 4 种 常见 的 使 用 场景 。 


























11.1.1 线 下 压缩 ， 客 户 端 解压 

在 第 一 个 场景 中 ， 数 据 在 某 个 与 客户 端 无 关 的 地 方 压 缩 ， 然 后 分 发 到 客户 端 ， 并 在 客户 端 
解压 以 供 使 用 。 

这 一 场景 对 打包 的 应 用 程序 或 者 电子 游戏 来 说 很 常见 ， 并 且 相 应 的 资源 文件 中 常常 包含 大 
量 的 图 片 、 视 频 和 音乐 。 另 一 个 场景 就 是 艺术 家 创作 并 共享 他 们 的 作品 。 无 论 是 哪 种 情 
况 ， 原 始 的 作品 都 是 使 用 高 分 辩 率 、 高 保 真 的 工具 制作 的 ， 然 后 再 输出 并 压缩 以 供 分 发 。 














这 里 压缩 的 目的 是 使 多 媒体 文件 尽 可 能 地 小 。 
需要 权衡 取舍 的 是 多 媒体 文件 的 品质 。 
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11.1.2 ”客户 端 压缩 ， 云 端 解压 

大 多 数 现 代 社交 媒体 应 用 程序 会 在 客户 端 产生 很 多 内 容 ， 然 后 将 它们 推 到 云端 进行 处 理 并 
分 发 给 其 他 社交 用 户 。 在 这 些 场景 中 ， 通 常会 在 客户 端 进行 初步 压缩 ， 以 节省 出 站 通信 的 
流量 费用 。 例 如 ， 在 获取 一 组 社交 数据 后 ， 我 们 会 先 使 用 二 进 制 序列 化 格式 将 这 组 数据 序 
列 化 ， 然 后 在 发 送 到 服务 器 之 前 再 用 GZIP 对 它 进 行 压缩 。 





























这 里 的 主要 目的 是 减少 用 户 的 费用 。 虽 然 很 多 北美 的 用 户 (仍然 ) 使 用 的 是 无 限量 数据 套 
餐 服务 ， 但 是 世界 上 很 多 地 方 的 用 户 不 能 享受 这 样 的 服务 ， 因 此 大 多 数 用 户 使 用 的 是 按照 
流量 付费 的 套餐 。 也 就 是 说 ， 这 些 用 户 上 传 到 服务 器 上 的 每 个 二 进 制 位 都 要 自己 付费 。 


这 里 的 权衡 取舍 是 ， 对 于 移动 设备 ， 需 要 消耗 电池 的 电量 去 压缩 数据 。 





























11.1.3 云端 压缩 ， 客 户 端 解压 

放 到 云端 压缩 的 数据 大 致 可 以 分 类 两 类 ， 这 两 类 的 特点 完全 不 同 ， 下 面 分 别 叙 述 。 

1. 由 云端 资源 生成 的 动态 数据 

与 用 户 将 数据 上 传 到 云端 相反 ， 这 些 数据 来 源 于 云端 并 由 用 户 下 载 到 本 地 。 

例如 ， 在 客户 端 请 求 数据 库 操作 的 结果 ， 或 者 服务 器 发 送 了 动态 布局 的 数据 ， 而 客户 端 在 
等 待 内 容 生成 的 时 候 ， 服 务 器 生成 并 压缩 数据 所 需 的 时 间 就 变 得 非常 重要 。 因 为 如 果 需 要 
的 时 间 比 较 长 的 话 ， 客 户 端 就 会 明显 地 感受 到 网 络 延 迟 。 





这 里 最 重要 的 是 平衡 压缩 后 的 大 小 与 所 需要 的 时 间 。 值 得 指出 的 是 ， 在 某 些 高 延迟 的 环境 
下 ， 用 户 可 能 会 更 愿意 多 等 一 些 时 间 ， 使 文件 变 得 更 小 。 





这 里 ， 压 缩 的 目的 就 是 让 通过 网 络 传输 的 内 容 变 得 更 小 。 
这 里 需要 权衡 取舍 的 是 时 间 。 


2. 为 提高 计算 效率 而 传输 到 云端 的 大 量 数据 

这 一 场景 的 重要 性 往往 是 因为 需要 确保 手边 的 媒体 文件 尽量 地 小 。 例 如 ,设想 你 有 2 GB 
的 PNG 文件 需要 转换 为 10 种 不 同 分 辨 率 的 WebP 图 片 ， 或 者 是 你 有 长 度 为 1200 个 小 时 的 
视频 文件 需要 在 播放 前 转换 为 H.264 格式 。 


需要 记 住 的 是 ， 由 云端 传输 出 去 的 每 个 二 进 制 位 都 需要 所 有 者 付费 ， 实 际 上 ， 客 户 端 也 需 
要 为 从 云端 获取 的 每 个 二 进 制 位 付费 。 因 此 ， 这 是 使 用 云端 计算 资源 的 理想 场景 ， 我 们 可 
以 用 计算 效率 最 高 的 方式 让 数据 的 二 进 制 位 数 变 得 最 小 。 














注 1: 在 我 们 写作 本 书 的 时 候 ， 这 种 状况 也 正在 发 生变 化 。 
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这 里 的 目标 就 是 高 效 地 将 大 量 的 数据 压缩 为 最 少 的 二 进 制 位 数 。 
这 里 需要 权衡 取舍 的 是 成 本 和 效率 (也 就 是 计算 资源 的 价格 )。 
11.1.4 客户 端 压缩 ， 客 户 端 解压 


最 后 ， 还 有 很 多 客户 端 应 用 程序 相互 之 间 需 要 通信 ， 它 们 之 间 可 能 会 相互 发 送 对 等 网 络 
包 、 图 片 或 者 GPS 信息 这 样 的 内 容 。 

















在 这 些 情况 下 ， 客 户 端 会 生成 数据 并 压缩 它 ， 然 后 再 发 送 给 其 他 客户 端 去 解压 。 


这 里 的 难点 是 ， 客 户 端 通常 是 移动 设备 ， 没 有 优化 转换 和 压缩 数据 所 需要 的 大 量 资源 。 然 
而 ， 这 些 设 备 通 常会 有 专用 的 图 形 硬件 ， 因 此 可 以 用 来 压缩 像 PG 和 HH.264 这 样 格式 的 
文件 ， 也 就 是 可 以 用 来 处 理 图 片 和 视频 。 至 于 其 他 类 型 的 数据 ， 因 为 只 有 这 样 的 硬件 配 
置 ， 所 以 数据 压缩 的 质量 会 比较 低 (没有 什么 时 间 去 优化 )， 同 时 解压 缩 的 过 程 也 会 比较 
慢 (移动 设备 的 电量 有 限 )。 






























































因此 ， 处 理 客户 端 之 间 互 相通 信 的 算法 通常 选择 固定 二 进 制 位 率 的 压缩 ， 例 如 手动 打包 序 
列 化 结构 而 不 是 对 它 进行 压缩 。 








如 此 一 来 ， 这 里 就 不 存在 取舍 ， 相 反 ， 这 里 更 多 的 是 需要 权衡 设备 的 功能 、 压 缩 和 解压 需 
要 的 时 间 以 及 需要 数据 的 迫切 性 。 


11.2 ”数据 压缩 的 需求 


前 面 在 介绍 不 同 压缩 算法 时 提示 过 ， 理 解 不 是 所 有 的 压缩 算法 和 格式 都 适用 于 所 有 类 型 的 
数据 ， 这 很 重要 。 例 如 ， 如 果 对 图 像 数 据 应 用 哈 夫 曼 编码 ， 那 么 压缩 的 结果 肯定 达 不 到 应 
用 有 损 图 像 压缩 算法 " 的 水 平 。 


作为 开发 人 员 ， 为 每 种 类 型 的 数据 匹配 正确 的 算法 ， 对 最 大 限度 地 压缩 数据 至 关 重要 ， 当 
然 在 这 中 间 需 要 做 出 一 些 权 衡 取 舍 。 永 远 不 会 有 银 弹 ， 做 出 正确 的 选择 需要 我 们 : 


了 解 要 处 理 的 数据 一 一 要 了 解 的 不 仅 是 数据 的 类 型 ,还 要 了 解 它 的 内 部 结构 ， 特 别 是 它 
的 使 用 方式 ，; 

。 了 解 算法 的 各 项 指标 ， 这 样 才能 从 中 选 出 正确 的 算法 系列 ，” 

。 最 重要 的 是 ,了解 在 给 定 的 情况 下 你 需要 的 是 什么 , 因为 有 些 算法 能 方 省 特别 多 的 空间 。 





















































那么 在 实践 中 这 意味 着 什么 呢 ? 





注 2: 即 在 压缩 的 过 程 中 会 丢失 部 分 信息 的 算法 ， 关 于 有 损 压 缩 的 知识 ， 参 见 第 14 章 。 
注 3: 更 具体 地 说 ， 适 用 于 大 量 文本 的 算法 可 能 在 压缩 数值 型 数据 时 效果 并 不 好 ， 反 之 亦 然 。 
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举 个 例子 ， 与 全 屏 显示 的 图 片 相 比 ， 缩 略图 对 图 片 质量 的 要 求 就 会 比较 低 。 因 此 ， 缩 略图 
可 以 使 用 有 损 的 JPEG 编码 压缩 ， 而 对 质量 有 更 高 要 求 的 图 片 则 应 该 使 用 无 损 的 WebP 编 
解码 器 编码 。 


11.3 ”压缩 率 

压缩 率 ， 也 就 是 内 容 压 缩 后 的 大 小 与 压缩 前 大 小 之 比 ， 通 常 是 评价 压缩 效果 时 最 重要 的 
指标 。 因 为 压缩 的 最 主要 目的 就 是 让 数据 变 得 最 紧 资 ， 在 网 络 传输 中 二 进 制 位 数 总 是 越 
少 越 好 。 





























当然 ， 总 是 会 有 一 些 例 外 。 当 性 能 或 者 内 存 更 重要 的 时 候 ， 你 可 能 愿意 接受 压缩 节省 的 空 
间 变 小 。 这 里 就 有 一 个 很 好 的 例子 : 1 GB 的 文本 文件 ， 用 ZPAQ 算法 压缩 ， 压 缩 后 的 文 
件 通常 会 最 小 ， 但 同时 需要 2 GB 的 内 存 以 及 3 个 小 时 才能 在 台式 计算 机 上 完成 压缩 ， 解 
压 时 需要 的 资源 时 间 大 致 相同 。 因 此 ， 当 关 广 的 主要 是 压缩 后 的 文件 大 小 时 ，ZPAQ 算法 
是 很 不 错 ， 但 它 不 适用 于 在 移动 设备 上 压缩 数据 。 


当然 ， 对 那些 在 线 下 或 者 云端 进行 压缩 的 服务 来 说 ， 压 缩 率 就 是 最 重要 的 考虑 因素 之 一 ， 
这 里 我 们 有 资源、 有 时 间 将 数据 压缩 得 最 小 ， 同 时 这 样 做 还 能 减少 传输 数据 所 需 的 费用 。 
































用 户 总 是 处 于 劣势 
值得 指出 的 是 ， 用 户 总 是 处 于 天 平 劣势 的 一 端 。 世 界 上 的 大 部 分 地 区 没有 
“无 限量 数据 ”套餐 ， 而 且 用 户 下 载 1 GB 数据 的 费用 与 服务 器 提供 1 GB 数 

















据 的 费用 差别 极 大 。 
如 果 想 做 一 个 用 户 愿意 使 用 的 移动 应 用 程序 ， 那 么 你 应 该 站 在 用 户 角 度 去 考 
虑 数据 传输 的 费用 。 





11.4 压缩 性 能 


压缩 性 能 ， 指 的 是 将 数据 转换 为 压缩 后 的 形式 需要 多 长 时 间 。 在 对 网 络 延迟 要 求 很 高 的 情 
况 下 ， 无 论 是 客户 端 负责 数据 压缩 还 是 客户 端 在 等 待 服务 器 正在 压缩 的 数据 ， 压 缩 性 能 都 
至 关 重 要 。 

在 这 个 方面 通常 有 两 个 评价 指标 : CPU 速度 和 内 存 。 编 码 系统 的 CPU 速度 之 所 以 重要 ， 
是 因为 它 决 定 了 数据 可 以 压缩 得 多 快 。 而 可 用 内 存 的 数量 之 所 以 重要 ， 是 因为 它 十 分 有 
限 ， 特 别 是 对 移动 设备 来 说 。 

举 个 例子 ，LZMA 算法 的 压缩 结果 让 人 印象 深刻 ， 但 同时 该 算法 也 需要 大 量 的 内 存 。 这 就 
使 得 它 对 移动 设备 来 说 没有 太 大 的 吸引 力 ， 因 为 移动 设备 可 能 只 有 256 MB 的 内 存 。 
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大 多 数 客户 端 (至 少 是 移动 设备 ) 内 置 了 对 硬件 压缩 编 解码 器 的 支持 ， 至 少 是 对 某 些 有 损 
压缩 类 型 的 数据 。 像 了 PG 和 瑟 .264 这 样 的 文件 可 以 很 容易 传输 到 这 些 硬件 上 ， 而 服务 器 端 
通常 没有 配置 这 些 特殊 的 硬件 ， 因 此 ， 在 客户 端 进行 压缩 要 比 在 服务 器 端 更 容易 。 


对 需要 无 损 压 缩 的 数据 类 型 ， 我们 甚至 看 到 了 一 些 GZIP 芯片 。 由 于 这 些 硬件 组 件 都 是 专 
门 设计 的 ， 因 此 与 软件 实现 相 比 ， 它 们 的 速度 要 快 很 多 ， 只 要 有 机 会 就 应 该 去 使 用 它们 。 
需要 记 住 的 是 ， 在 客户 端 压缩 能 使 用 的 资源 相当 有 有限， 如果 能 改变 策略 优化 性 能 ， 肯 定 有 
好 处 。 特 别 是 遇 到 序列 化 的 数据 需要 通过 对 等 网 络 传输 的 情况 ， 对 每 帧 数据 包 及 其 位 置 的 
更 新 都 会 导致 数据 的 加 载 ， 因 此 利用 GZIP 硬件 的 好 处 更 多 。 


11.5 解压 性 能 


对 所 有 重点 关注 性 能 的 环境 来 说 ， 解 压 速度 的 重要 性 超过 其 他 所 有 指标 。 在 现代 应 用 程序 
的 开发 中 ， 解 压 通常 是 在 客户 端 设 备 中 进行 ， 与 服务 器 端 相 比 ， 客 户 端 通常 存在 能 量 不 足 
的 问题 。 那 些 能 将 文件 压缩 得 最 小 的 算法 ， 通 常 也 需要 花 最 长 的 时 间 去 解压 ， 因 此 对 需要 
将 数据 传输 到 移动 设备 上 处 理 的 应 用 程序 来 说 ， 这 些 算法 并 不 适用 。 


因此 ， 有 时 我 们 必须 做 出 取舍 : 选择 压缩 算法 主要 是 根据 该 算法 的 解压 性 能 而 不 是 压缩 后 
文件 的 大 小 。 例 如 ，ZPAQ 可 以 说 是 一 种 非常 高 效 的 压缩 算法 ， 它 使 用 神经 网 络 作 为 编 解 
码 器 ， 因 此 解压 时 需要 运行 大 量 的 资源 。 这 样 的 资源 需求 使 得 它 注 定 与 只 拥有 较 少 的 CPU 
和 电池 资源 的 移动 设备 无 缘 。 


































































































WebP 图 片 格式 是 另 一 个 很 好 的 例子 。 最 初 几 个 版 本 的 WebP 相 比 JPG 来 说 ， 所 需 的 空间 
更 小 但 是 图 片 质量 更 高 ， 美 中 不 足 的 是 解码 所 需 的 时 间 几 乎 是 JPG 的 两 倍 。 因 此 ， 很 多 公 
司 对 于 是 否 采用 这 种 格式 很 犹 殉 ， 而 在 随后 的 版 本 中 ，WebP 解码 的 性 能 提高 了 ， 最 终 很 
多 公司 采用 了 这 种 格式 。 








在 台式 设备 和 移动 设备 中 普遍 存在 的 硬件 解码 器， 正在 改善 这 种 情况 。 处 理 JPG、OGG 和 
H.264 的 硬件 忆 片 ， 正 在 提高 专门 为 它们 而 设计 的 算法 的 解码 性 能 ， 让 它们 成 为 某 些 情 况 
下 更 好 的 选择 。 


实际 上 ，GZIP 之 所 以 成 为 当前 世界 上 使 用 较 多 的 通用 文档 压缩 算法 ， 解 码 性 能 是 其 中 最 
主要 的 原因 之 一 。GZIP 算法 生成 的 压缩 文件 大 小 合适 且 解 压 速 度 很 快 ， 这 使 得 它 适用 于 
各 种 类 型 的 舱 入 式 设备 和 非 铭 入 式 设备 。 从 诞生 到 现在 的 20 多 年 里 ，GZIP 算法 一 直 在 改 
进 ， 其 解压 性 能 不 断 提 高 到 新 水 平 。 


11.6 解码 流 的 能 力 


数据 流通 常 是 解压 时 容易 被 忽略 的 一 个 方面 。 我 们 通常 认为 解压 算法 处 理 的 是 “完整 的 数 
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据 包 ”， 也 就 是 说 解码 前 所 有 的 数据 都 必须 在 内 存 中 。 

然而 这 样 的 想法 远 非 事实 。 想 象 一 下 ， 一 次 去 听 一 部 歌剧 或 者 观看 Kenneth Branagh 
《哈姆雷特 》， 通 常 你 会 认为 这 样 做 一 下 子 接受 的 内 容 太 多 了 ， 最 好 能 一 次 只 听 一 两 个 章 
或 只 看 一 两 幕 。 











幸运 的 是 ， 一 些 通用 压缩 算法 如 GZIP、BZIP2 以 及 大 多 数 多 媒体 压缩 算法 像 H.264 能 
流 模 式 下 工作 。 数 据 以 分 块 的 形式 发 送 到 客户 端 ， 一 到 客户 端 就 开始 解码 ( 即 分 块 解码 
对 许多 客户 端 应 用 程序 来 说 ， 这 种 能 力 正 是 它们 需要 的 。 想 象 一 下 ， 一 位 用 户 想 要 从 头 
览 某 个 社交 视频 流 ， 而 在 他 能 解码 “我 终于 在 巨石 阵 趴 街 了 ”这 一 内 容 前 ， 必 须要 先 去 
载 过 去 10 年 里 “今天 早晨 我 准备 吃 什 么 ”这 样 的 内 容 ， 这 真是 令 人 难以 接受 。 


11.7 比较 压缩 算法 


由 于 有 这 么 多 压缩 格式 和 算法 ， 因 此 有 时候 就 难免 想 对 它们 进行 逐一 比较 ， 看 看 对 于 给 
的 某 种 数据 类 型 哪 种 算法 表现 最 好 。 
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幸运 的 是 ， 这 样 的 工作 不 需要 你 自己 去 做 。 例 如 ， 前 面 提 到 的 大 文本 压缩 基准 测试 会 定期 
比较 各 种 算法 压缩 1 GB 文本 数据 时 的 各 方面 表现 。Squash 压缩 基准 测试 则 会 测试 各 种 算 
法 在 压缩 XML、 文本 、 图 像 以 及 其 他 数据 格式 时 的 表现 。 此 外 Squeeze Chart 则 会 比较 算 


























法 在 压缩 各 种 文本 、 音 频 以 及 位 图 时 的 表现 。 





总 之 一 名 话 ， 不 同 的 算法 和 不 同 的 设置 ， 都 会 影响 到 开发 的 应 用 程序 的 压缩 质量 。 在 任 
情况 下 ， 你 都 需要 根据 当前 的 条 件 和 目标 ， 试 着 对 候选 的 算法 进行 测试 ， 从 而 挑 出 最 适 
的 那 一 个 。 
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魏 斯 曼 评分 
我 必须 要 感谢 Mike Judge， 他 帮助 压缩 领域 摆脱 了 困境 。20 世纪 80 年 代 以 来 ,数据 
压缩 领域 的 成 果 相 对 较 少 且 进 步 缓慢 。 是 的 ， 在 20 世纪 90 年 代 出 现 了 BWT， 在 21 
世纪 初出 现 了 LZMA， 到 21 世纪 10 年 代 又 有 了 ZPAQ， 可 是 除 此 之 外 ， 就 再 也 没有 
能 拿 出 手 的 东西 了 。 然 而 ， 在 一 阵 笑 声 中 ， 突 然 整个 世界 再 次 对 压缩 有 了 兴趣 。 到 底 
发 生 了 什么 ? 


2014 年 ,一 部 名 为 《硅谷 》 的 电视 剧 上 映 后 大 受 欢迎 。 这 部 电视 剧 展 示 了 一 位 程序 员 
的 创业 之 旅 ， 剧 中 主人 公 试 图 创建 一 家 颠 徐 性 的 压缩 算法 公司 。 虽然 这 部 作品 的 核心 
是 讽刺 ， 但 它 对 压缩 领域 的 影响 很 大 。 突 然 ， 关注 数 据 压 缩 变 得 很 酷 。 媒 体 也 沉迷 于 
这 样 的 故事 ， 任 何 关于 某 个 公司 正在 做 一 些 与 压缩 有 关 的 有 趣事 情 的 故事 ， 都 会 被 立 
即 拿 来 与 这 部 电视 剧 比较 。 因 此 ， 当 谷歌 发 布 一 种 新 的 压缩 算法 时 ， 媒 体 就 借 此 机 会 
讨论 艺术 模仿 生活 ， 生 活 模 仿 艺术 之 类 的 话题 。 
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虽然 这 部 电视 剧 中 的 压缩 算法 都 是 虚构 的 ， 但 是 制 片 人 还 是 想 从 中 展示 一 丝 真理 ， 所 
以 他 们 联系 了 斯 坦 福 大 学 的 教授 塔 奇 , 魏 斯 曼 (Tsachy Weissman) 帮助 他 们 达成 这 一 
目标 。 因 此 ， 魏 斯 曼 教 授 设 计 了 一 种 度量 数据 压缩 性 能 的 方法 ， 用 数据 集 的 压缩 率 除 
以 其 编码 速度 作为 衡量 标准 。 其 目的 是 通过 已 知 的 现 有 编码 器 (如 GZIP)， 归 一 化 新 
压缩 算法 的 压缩 浴 与 其 编码 速度 之 商 ， 来 测试 新 算法 的 性 能 。 通 过 归 一 化 ， 我 们 就 有 
了 将 某 个 算法 与 通用 标准 压缩 工具 相 比 较 的 能 力 ， 这 有 助 于 评估 对 于 某 种 数据 类 型 ， 
哪个 算法 最 合适 

制 片 人 以 它 的 提出 者 为 这 种 新 的 度量 标准 命名 ， 称 之 为 魏 斯 曼 评 分 (Weissman Score)， 
从 此 之 后 它 成 为 互联 网 上 的 传奇 ， 尽管 并 不 清楚 这 一 评分 在 压缩 的 实际 应 用 中 是 否 有 
根据 。( 至 少 在 encode 这 一 数据 压缩 论坛 上 ， 目 前 还 没有 人 使 用 这 一 评分 …… ) 


这 里 值得 一 提 的 是 ， 由 于 人 们 对 数据 压缩 领域 有 了 更 多 的 关注 ， 我 们 希望 专注 于 
这 一 领域 的 新 一 代 算 法 和 研究 ， 从 而 帮助 数据 压缩 取得 新 的 突破 。 
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压缩 图 像 数据 





如 有 果 你 是 一 名 应 用 程序 开发 人 员 ， 那 么 很 有 可 能 你 的 应 用 程序 的 绝 大 部 分 内 容 是 图 像 数据 。 
社交 流 媒体 、 购 物 网 页 ， 甚 至 是 地 图 信息 ， 所 有 这 些 图 像 内 容 都 必须 不 断 地 发 送 给 用 户 。 


图 像 压 缩 是 一 个 非常 辐 手 的 问题 ， 包 含 在 压缩 工具 中 的 每 个 有 损 压 缩 算法 都 很 复杂 (最 乐 
观 地 看 ) ， 还 是 不 要 接触 的 好 。 不 过 也 不 要 放弃 希望 ， 虽 然 这 些 压缩 工具 大 多 数 情 况 下 被 当 
作 改 盒 系统 ， 你 的 开发 团队 仍然 可 以 做 很 多 事情 来 影响 图 像 内 容 的 大 小 ， 使 它 变 得 更 小 。 


12.1 理解 图 像 质 量 与 文件 大 小 
通常 来 说 ， 图 像 压缩 工具 会 提供 一 个 整数 参数 ， 让 你 来 决定 图 像 的 质量 。! 
随 着 这 个 值 变 小 ， 图 像 的 大 小 也 会 变 小 ， 当 然 质量 也 会 变 差 。 




































































你 知道 ， 这 个 值 主 要 是 用 来 控制 有 损 算 法 为 了 压缩 效果 更 好 ， 而 在 转换 数据 时 采取 的 力 
度 。 更 差 的 质量 就 意味 着 有 更 多 的 颜色 被 丢弃 ， 或 者 是 有 更 多 的 边缘 信息 被 忽略 ， 所 有 这 
些 都 是 为 随后 的 统计 编码 阶段 生成 更 多 的 重复 符号 。 


选 定 这 样 一 个 值 ， 可 以 说 是 一 项 重大 的 、 关 键 的 、 耗 时 的 决定 。 如 果 这 个 值 选 得 过 小 ， 就 
会 造成 图 像 伪 影 ， 用 户 也 可 能 抱怨 图 像 质 量 差 ， 如 果 这 个 值 选 得 过 大 ， 那 么 发 送 的 图 像 就 
比 需要 的 大 得 多 ， 相 应 的 费用 也 会 增加 不 少 。 图 12-1 展示 了 这 一 过 程 。 



































注 1: 或 许 你 对 这 个 概念 有 所 了 解 ， 当 在 Photoshop 软件 中 保存 JPG 文件 时 ， 它 通常 会 询问 你 想 要 什么 样 的 
“质量 等 级 ”。 
注 2: 图 12-1 的 彩色 图 片 , 请 通过 本 书 图 灵 社 区 页 面 (https:/www.ituring.com.cn/book/1893) 的 “ 随 书 下 载 ” 
处 获取 。 一 一 编者 注 
























































147 

















图 12-1， 一 组 有 着 不 同 压缩 率 不 同 质量 的 图 片 ， 图 片 质量 从 左 到 右 依次 为 高 、 中 、 低 。 随 着 图 片 变 
得 越 来 越 小 ， 其 质量 也 变 得 越 来 越 差 


对 少量 的 图 像 ， 艺 术 家 或 者 设计 师 可 以 手工 选择 最 佳 的 质量 值 。 在 使 用 工具 导出 图 像 时 ， 
他 们 可 以 通过 请 动 质量 值 条 ， 找 出 图 像 质量 和 最 终 文件 大 小 之 间 的 最 佳 平 衡 。 


然而 这 样 的 方法 不 能 规模 化 。 如 果 你 有 1500 万 用 户 都 将 他 们 做 的 美食 照片 上 传 到 服务 器 ， 
而 你 却 做 不 到 去 雇 一 批 艺 术 家 找 出 最 佳 平衡 点 。 更 糟糕 的 是 ， 每 张 照 片 的 最 佳 平衡 点 都 可 
能 不 同 。 一 个 真正 平滑 的 图 标 或 者 一 张 落日 的 照片 对 质量 的 要 求 ， 与 一 张 森林 或 者 脸庞 的 
照片 对 质量 的 要 求 是 不 同 的 。 人 脑 构造 就 是 这 么 复杂 ， 在 不 同 的 场景 中 注意 的 图 像 质 量 问 
题 不 同 。 


因此 ， 这 就 提出 了 一 个 价值 百 万 美元 的 问题 ， 在 规模 庞大 的 情况 下 ， 怎 样 才能 找 出 每 幅 
像 的 最 佳 质 量 值 ? 























神 











遗憾 的 是 ， 今 天 大 多 数 的 开发 人 员 没 有 试 着 去 解决 这 个 问题 ， 而 是 最 终 只 选 定 一 个 质量 值 
并 将 其 应 用 到 服务 中 的 所 有 图 像 上 。 


正如 imgmin 开源 项 目 指出 的 那样 ， 对 于 级 别 在 75~100 的 JPG 压缩 ， 通 常用 户 只 能 感受 到 
很 小 的 质量 差别 。 





对 正常 的 JPEG 图 片 来 说 ， 当 压缩 级 别 在 75~100 时 ， 只 会 出 现 非常 小 的 、 几 乎 

不 可 见 的 “明显 ”质量 变化 ， 但 文件 大 小 之 间 的 差别 比较 大 。 这 意味 着 当 质 量 值 

为 75 时 对 普通 用 户 来 说 很 多 图 片 看 着 把 好 ， 但 是 其 文件 大 小 只 有 质量 值 为 95 时 

的 一 半 。 当 质量 值 低 于 75 时 ， 图 片 看 起 来 就 变 差 很 多 ， 并 且 节省 的 空间 也 在 逐 

渐 递 减 。 
imgmin 开源 项 目 还 进一步 指出 ， 大 多 数 的 大 型 网 站 往往 将 所 有 JPG 图 片 的 质量 值 设 定 在 
75 左右 ， 有 具体 数据 如 下 表 所 示 : 
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公司 图 像 类 型 JPG 质 量 值 









































谷歌 图 片 缩 略 图 74~76 
Facebook 原 尺寸 图 片 85 
Yahoo 首页 JPG 图 片 69~91 
YouTube 首页 JPG 图 片 70~82 
维基 百科 图 片 80 
Windows Live 背景 图 片 82 
Twitter 用 户 JPG 图 片 30~100 


这 里 的 问题 是 ， 这 些 选 定 的 值 不 太 理想 。 它 们 通常 是 在 脱离 实际 的 环境 中 选 定 的 一 个 值 ， 
然后 被 应 用 到 了 整个 系统 中 的 所 有 图 像 上 。 实 际 上 ， 有 些 图 像 可 以 进一步 压缩 ， 其 质量 的 
损失 可 以 忽略 不 计 ， 而 另 一 些 图 像 则 因为 压缩 得 太 多 而 看 起 来 不 太 好 。 














12.1.1 是 什么 降低 了 图 像 的 质量 
在 看 图 像 时 ， 人 类 的 眼睛 对 很 多 事物 很 敏感 ， 其 中 包括 边缘 和 渐变 。° 





任何 时 候 ， 当 两 个 已 知 值 之 间 的 边缘 出 错 ， 或 者 出 现 了 与 大 脑 认为 的 平 请 颜色 不 一 致 的 搭 
配 ， 都 会 很 容易 察觉 ( 见 图 12-2) “。 

















图 12-2: 完全 平滑 的 渐变 图 ( 左 ) 与 压缩 后 的 渐变 图 ( 右 ) 。 左 边 的 源 图 片 有 近 128 种 不 同 的 颜色 ， 
而 压缩 后 的 图 片 则 只 有 32 种 。 这 种 由 于 颜色 的 缺失 而 造成 的 现象 通常 称 为 “色彩 断层 ” 
(banding)， 它 降低 了 渐变 图 像 的 平滑 质量 


量化 (quantization) 和 区 块 化 (blocking) 是 导致 图 像 压缩 出 现 视觉 问题 的 最 常见 的 两 种 
形式 。 大 多 数 图 像 压 缩 算法 将 图 像 数 据 先 切 分 为 像素 块 ， 然 后 再 量化 ， 以 减少 图 像 中 不 同 














EE 3: 看 一 张 图 片 时 ， 通 过 直觉 我 们 就 能 感受 到 画 的 质量 好 不 好 。 因 此 ， 虽 然 “ 质 量 ” 这 样 的 表达 可 能 有 些 
含糊 ， 但 它 其 实 包含 了 颜色 准确 性 、 清 晰 度 、 对 比 度 和 失真 度 这 些 概念 。 而 我 们 真正 想 要 的 是 度量 质 
量 的 能 力 ， 这 一 内 容 随 后 会 展开 。 
: 图 12-2 的 电子 图 片 , 请 通过 本 书 图 灵 社 区 页 面 (https://www.ituring.com.cn/book/1893) 的 “ 随 书 下 载 ” 
处 获取 。 一 一 编者 注 
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的 颜色 数量 ， 再 在 此 基础 上 基于 图 像 的 局 部 性 进行 修改 。 


例如 ，JPG 会 将 图 像 的 像素 切 分 为 8 x 8 的 小 块 ， 然 后 试 着 找 出 与 此 区 域 相似 的 颜色 。 这 
种 方法 之 所 以 可 行 ， 是 因为 图 像 数据 局 部 区 域 之 间 存 在 关联 。 也 就 是 说 ， 在 一 幅 真正 随机 
的 图 像 中 ， 两 个 相 邻 的 像素 之 间 并 不 会 存在 相关 性 ， 然 而 在 一 张 照片 中 ， 两 个 相 邻 的 像素 
之 间 往 往 是 渐变 的 ， 颜 色相 似 。 这 种 区 块 化 过 程 造成 的 结果 是 ， 相 邻 区 块 之 间 的 颜色 可 能 
不 太 相同 ， 区 块 之 间 的 边缘 因此 也 就 变 得 很 明显 ， 如 图 12-3 所 示 。 












































12-3: 用 于 展示 区 块 效应 影响 的 某 娠 图 特写 
事实 上 ， 当 前 已 有 很 多 研究 致力 于 弄 清楚 由 于 压缩 而 导致 的 不 同类 型 的 视觉 伪 影 (visual 


artifacts ) 。 





12.1.2 ”度量 图 像 质量 

人 脑 虽然 可 以 本 能 地 觉察 到 并 界定 出 哪些 图 像 质量 很 精 糕 ， 但 在 需要 自动 判断 经 压缩 处 理 
后 图 像 质 量 “ 好 不 好 ”时 ， 它 不 起 太 大 作用 。 因 此 ， 提 出 一 种 数学 上 的 、 可 度量 的 ， 因 而 
能 用 编程 实现 的 “图 像 质量 ”概念 就 变 得 尤为 重要 。 

如 今 ， 人 们 通常 使 用 相互 之 间 有 些 竞 争 的 两 个 指标 来 评价 图 像 数据 ;: 峰值 信 噪 比 (peak 
signal-to-noise ratio，PSNR) 和 结构 相似 性 (structural similarity index，SSIM)。 

















PSNR 通常 表示 一 个 信号 的 最 大 可 能 功率 与 影响 它 的 表示 精度 的 破坏 性 噪声 功率 的 比值 
(以 对 数 分 贝 为 单位 )。 这 一 度量 的 基础 是 压缩 图 片 的 均 方 误差 (mean-square error，MSE ) ， 
换 句 话说 ， 原 始 图 像 的 值 与 压缩 后 的 值 差 别 有 多 大 。 
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PSNR 与 MSE 之 间 ， 存 在 着 反比 关系 。 当 误差 的 数量 较 少 时 ， 图 片 的 质量 就 比较 高 
(PSNR 同样 如 此 )， 反 之 亦 然 。 这 里 唯一 需要 注意 的 是 ， 如 果 你 试 着 去 计算 两 张 一 样 的 图 
像 的 均 方 误差 值 ， 其 结果 会 为 0， 那 么 对 应 的 PSNR 会 是 未 定义 的 〈 除 以 0)。 

















然而 PSNR 的 度量 还 是 存在 一 些 问题 的 。 因 为 它 计算 的 是 去 噪 之 后 经 过 均 方 处 理 的 误差 ， 
所 以 它 稍微 有 些 偏 向 过 度 平 请 ( 即 模糊 ) 的 结果 。 用 通俗 的 话 来 说 ， 即 使 将 图 像 的 部 分 结 
构 移 除了 ， 得 分 还 是 比较 高 (忽略 了 图 像 缺失 的 那 部 分 )。 因 此 ，PSNR 并 不 总 是 与 源 图 像 
或 者 应 用 到 其 上 的 效果 类 型 相 一 致 。 此 外 ，PSNR 严格 依赖 于 数值 比较 ， 没 有 考虑 任何 与 
人 类 视觉 系统 相关 的 生物 因素 ， 因 此 ， 就 会 出 现 从 数值 上 去 看 很 好 ， 但 用 眼睛 去 看 就 有 比 
较 明 显 的 图 像 质量 问题 的 情况 。 








SSIM 这 个 概念 的 提出 就 是 为 了 解决 PSNR 的 问题 ， 在 比较 图 像 的 压缩 质量 时 考虑 了 人 有 眼 
的 感知 情况 。 它 是 通过 比较 源 图 像 与 压缩 后 图 像 的 边缘 相似 性 来 实现 的 。SSIM 看 上 去 是 
一 个 更 好 的 质量 度量 标准 ， 但 是 其 计算 也 更 复杂 。 























SSIM 取 值 范围 为 [0,1]， 当 其 取 值 为 1 时 表示 的 是 压缩 后 的 图 像 与 源 图 像 完 全 相同 ， 而 取 
值 为 0 则 表示 压缩 后 的 图 像 与 源 图 像 完 全 不 同 。 
































图 12-4 展示 了 一 系列 照片 中 每 张 照片 的 MSE (PSNR) 和 SSIM 的 值 。 





有 而 计 


图 让 BS 
(a) MSE=0, SSIM=1 


B.S 


i 本 
(e) MSE=871, SSIM=0.404 














图 12-4: 具有 不 同 MSE (PSNR) 和 SSIM 值 的 图 像 并 排 显示 ， 其 中 (a) 是 原始 图 像 ，(b) 增加 了 一 
些 白色 噪声 ，(c) 增加 了 模糊 效果 ，(d) 是 低 质 量 JPG 压缩 后 的 结果 ，(e) 则 是 高 质量 JPG 
压缩 后 的 结果 。 值 得 注意 的 是 ， 虽 然 图 像 (b)、(c) 和 (d) 的 MSE 值 相差 无 几 ， 但 其 给 
人 的 视觉 效果 完全 不 同 
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12.1.3 ”让 想法 真正 工作 


显然 ， 为 了 让 用 户 感受 到 相同 的 视觉 品质 ， 不 同类 型 的 图 像 需 要 有 不 同 的 输出 设 定 。 一 
张 森林 的 照片 由 于 有 很 多 边缘 和 不 同 的 颜色 ， 因 此 需要 更 多 的 二 进 制 位 以 充分 地 展示 它 ，; 
而 一 张 手 绘 的 卡通 ， 因 为 其 颜色 简单 ， 所 以 不 会 产生 很 多 的 渐变 问题 。 因 此 ， 不 同 的 图 
像 类 型 ， 需 要 使 用 不 同 的 输出 设 定 。 然 而 ， 如 何在 开发 环境 中 实现 它 ， 这 个 问题 留 给 你 
来 解决 。 


显而易见 ， 通 过 云端 的 计算 资源 反复 寻找 找 出 理想 的 质量 设 定 是 最 简单 的 方法 ， 但 并 不 是 
所 有 的 开发 人 员 都 有 时 间 和 经 费 做 到 这 一 点 。 


12.2 图像 的 尺寸 很 重要 


在 现今 的 移动 世界 ， 有 很 多 屏幕 尺寸 不 同 、 处 理 能 力 各 异 的 设备 。 这 对 开发 人 员 来 说 是 一 
个 很 大 问题 : 在 处 理 图 像 时 应 该 使 用 什么 样 的 分 辩 率 ? 


考虑 这 样 一 个 场景 ， 一 位 用 户 正在 用 手机 上 传 一 张 800 万 像素 的 照片 。” 


对 那些 屏幕 分 辩 率 与 上 传 用 户 相 同 的 用 户 来 说 ， de Bata a 
照片 ， 可 是 应 该 如 何 应 对 那些 屏幕 分 状 率 只 有 一 半 或 者 四 分 之 一 的 用 户 呢 ”这 与 从 桌面 显 
le el le 
图 像 ， 因 为 它 拥 有 的 物理 像素 就 少 ， 那 么 应 该 在 什么 地 方 调整 大 小 呢 ? 


将 全 分 辩 率 的 图 像 发 送 到 设备 上 ， 在 谊 当前 再 调整 大 小 ， 对 开发 人 员 来 说 ， 这 样 做 肯 
省 事 ， 但 缺点 也 很 明显 ， 我 们 将 用 户 不 需要 (也 不 会 看 ) 的 数据 发 给 了 他 们 。 这 样 他 ， 
实 是 把 钱 往 水 里 扔 ， 还 听 不 到 一 个 响 。 




































































池 

















并 V 





更 好 的 方法 是 直接 在 云端 调整 图 像 的 大 小 ， 或 者 在 某 处 缓存 调整 大 小 后 的 图 像 ， 这 样 就 能 
向 小 屏幕 发 送 小 尺寸 的 图 像 。 这 并 非 遥 不 可 及 。 很 有 可 能 ， 我 们 已 经 有 了 同一 幅 图 像 的 不 
同 分 辩 率 的 多 个 版 本 ( 见 图 12-5) : 低 分 辩 率 的 缩 略 图 、 高 分 辩 率 的 全 屏 版 本 ， 也 许 还 有 
介 于 两 者 之 间 的 预览 版 本 。 我 们 可 以 在 云端 或 者 本 地 使 用 自动 化 工具 ， 只 要 调用 一 次 就 能 
生成 所 需 的 所 有 分 辩 率 大 小 ， 无 须 艺 术 家 在 图 像 编 辑 器 中 手工 生成 。 









































注 5: 有 可 能 拍 的 照片 就 是 中 午 吃 的 克 林 贡 血 肠 。 
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全 屏 版 本 : 32bpp 缩 略图 : 16bpp 














图 12-5: 图 片 尺 寸 也 为 修改 图 片 质量 提供 了 方便 。 全 屏 的 图 像 由 于 有 更 多 的 视觉 空间 ， 因 此 用 户 容 
易 发 现 图 像 质量 问题 。 像 缩 略 图 这 样 比较 小 的 图 像 ， 我 们 就 可 以 接受 更 多 的 质量 格式 问题 ， 
因为 用 户 可 能 不 会 注意 到 或 者 去 抱怨 





发 送 合适 大 小 的 图 像 给 用 户 有 以 下 好 处 。 


。 发 送 的 数据 量 更 少 了 ， 这 会 更 快 ， 也 会 节省 用 户 的 套餐 费用 。 

。 可 以 节省 用 户 的 设备 空间 。 

。 无 须 再 调整 图 像 的 大 小 。( 是 的 ， 我 们 知道 GPU 可 以 帮 有 我 们 去 做 这 件 事 ， 但 是 如 果 要 在 
GPU 中 处 理 4 MB 大 小 的 图 像 ， 而 泻 染 的 时 候 只 是 缩 略 图 ， 是 不 是 很 浪费 资源 ?) 

。 解码 会 更 快 ， 加 载 会 更 快 ， 显示 也 会 更 快 …… 你 都 明白 了 吧 。 


12.3 选择 正确 的 图 像 格式 

前 面 提 到 过 ， 目 前 的 图 像 压缩 算法 和 格式 有 很 多 ， 每 一 种 的 权衡 取舍 都 不 同 ， 适 用 场景 也 
不 同 ， 这 一 点 我 们 在 开发 图 像 压缩 管道 时 应 该 注意 。 下 面 讨论 今天 在 移动 应 用 程序 和 网 页 
开发 中 最 常用 的 几 种 图 像 格式 : PNG、JPG、GIF 和 WebP。 














下 
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12.3.1 PNG 


便携 式 网 络 图 像 格 式 (Portable Network Graphics format，PNG)， 是 一 种 无 损 图 像 格式 ， 它 
使 用 GZIP 这 样 的 压缩 工具 使 数据 量变 小 。 由 于 是 一 种 无 损 的 图 像 格 式 ， 因 此 压缩 后 的 图 
像 质量 与 源 图 像 相同 。 这 正 是 它 的 优点 ， 既 能 保证 图 像 的 高 质量 又 能 压缩 数据 量 ， 当 然 压 
缩 的 程度 不 像 有 损 压缩 那么 大 。 


PNG 格式 最 吸引 人 的 地 方 在 于 它 对 透明 度 的 支持 。 除 了 红 、 绿 和 蓝 这 3 种 颜色 通道 外 ， 它 
还 支持 alpha 通道 ， 可 以 定义 泻 染 时 哪些 像素 是 透明 混合 的 。 对 透明 度 的 支持 ， 使 PNG 对 
网 站 、 对 那些 希望 屏幕 上 的 图 像 不 是 矩形 的 应 用 程序 有 很 大 的 吸引 力 。 当 然 ， 多 了 一 个 
alpha 通道 是 有 代价 的 ， 那 就 是 文件 的 大 小 也 变 大 了 。 


PNG 格式 还 允许 文件 中 存在 元 数据 块 ， 这 使 得 图 像 编辑 器 〈 以 及 生成 图 像 的 客户 端 设备 ) 
可 以 将 额外 的 数据 附加 到 文件 中 。 虽 然 这 是 有 用 的 ， 但 通常 它 也 是 数据 膨胀 的 主要 原因 ， 
而 且 大 多 数 情况 下 ， 这 些 描述 图 像 是 由 什么 程序 生成 的 数据 ， 对 用 户 来 说 其 实 是 垃圾 数 
据 。 因 此 ， 在 发 送 图 像 前 ， 去 掉 这 些 用 户 不 需要 的 数据 很 重要 。 


事实 上 ，PNG 格式 的 这 种 无 损 性 质 是 一 把 双 刃 剑 。 从 图 像 质量 的 角度 来 看 ， 相 对 源 图 像 我 
们 可 以 获得 完美 的 像素 结果 ， 但 是 从 文件 大 小 的 角度 来 看 ， 复 杂 的 图 像 不 会 包含 很 多 颜色 
相似 的 像素 ， 因 此 压缩 就 会 不 太 理 想 。 如 果真 的 需要 使 用 PNG 格式 ， 比 如 Android 应 用 程 
序 打包 或 是 网 页 上 需要 使 用 透明 的 图 像 这 样 的 场景 ， 我 们 可 以 在 图 像 保 存 为 PNG 格式 之 
前 ， 进 行 一 些 有 损 的 预 处 理 ， 来 提高 图 像 的 压缩 率 。 


幸运 的 是 ， 那 些 让 人 抓 狂 的 有 损 预 处 理 的 代码 不 需要 你 亲自 去 写 ， 有 很 多 应 用 程序 可 以 帮 
你 去 做 。 只 需要 在 网 上 搜 “ 有 损 PNG 压缩 工具 ， 就 会 出 现 很 多 此 类 的 工具 。 至 于 具体 选 
择 哪 一 种 预 处 理 器 ， 则 主要 取决 于 你 的 需求 以 及 你 要 处 理 的 数据 集 的 性 质 。 


























































































































12.3.2 JPG 


如 果 你 对 透明 度 没有 明确 的 需求 ， 那 么 联合 图 像 专 家 小 组 (Joint Photographic Experts Group， 
JPEG 或 JPG) 格式 可 以 说 是 一 个 更 好 的 选择 。JPG 是 一 种 用 于 摄影 图 像 的 格式 ， 它 不 支持 
alpha 透明 度 。 它 包含 一 个 功能 强大 的 有 损 压 缩 工具 ， 我 们 可 以 通过 一 个 质量 值 来 控制 它 ， 
以 达成 对 文件 大 小 与 图 像 质量 的 权衡 取舍 。 


JPG 这 种 压缩 格式 的 基础 是 分 块 编码 。 如 图 12-6 所 示 ， 一 幅 图 像 会 被 分 成 8x8 的 小 块 ， 
然后 在 每 块 上 应 用 各 种 不 同 的 变换 ， 再 将 变换 之 后 的 小 块 组 合 起 来 交 给 统计 编码 算法 
处 理 。 

















注 6: 大 多 数 能 导出 PNG 格式 的 图 片 编辑 程序 能 去 掉 这 些 信 息 ， 很 多 专门 的 PNG 压缩 工具 也 有 这 样 的 功能 。 
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图 像 分 割 成 小 块 正 向 离散 余弦 变换 











图 像 小 块 重 新 组 合 


图 12-6: JPG 算法 的 工作 原理 图 


逆向 离散 余弦 变换 











分 块 只 对 照片 适用 

需要 注意 的 是 ， 分 块 过 程 只 对 摄影 图 像 ( 即 照片 ) 适用 。 如 果 你 想 压 缩 的 是 
颜色 比较 少 的 图 像 ， 比 如 手绘 的 卡通 画 ， 那 么 PNG 对 应 的 无 损 压 缩 工具 表 
现 得 会 更 好 ， 因 为 它 可 以 将 很 长 的 类 似 颜 色 值 压 缩 为 一 个 记号 。 





























与 PNG 类 似 ，JPG 文件 中 也 包含 元 数据 块 ， 这 意味 着 图 像 编辑 器 或 者 照相 机 都 能 在 文件 
中 播 入 一 些 不 需要 的 数据 。” 
JPG 格式 还 有 一 个 好 处 是 ， 大 多 数 移动 设备 现在 有 系统 可 用 的 JPG 编码 和 解码 的 硬件 ， 这 
就 意味 着 解码 一 个 PG 文件 需要 的 时 间 要 比 解 码 同样 大 小 的 PNG 文件 短 很 多 。 

















12.3.3 GIF 


GIF 是 另外 一 种 支持 透明 度 的 格式 ， 此 外 它 还 支持 动画 (这 也 是 cats on the internet thing 
的 直接 原因 )。GIF 格式 文件 的 生成 包含 两 个 压缩 步 又， 第 一 步 是 有 损 的 色彩 数量 压缩 ， 
将 整个 图 像 的 颜色 数量 减少 到 只 有 256 种 ， 第 二 步 则 是 无 损 的 LZW 压缩 。 将 图 像 颜色 
的 数量 减少 到 256 种 会 极 大 地 降低 图 像 的 质量 ， 而 好 处 则 是 文件 压缩 得 更 小 ， 这 也 会 使 
LZW 算法 的 压缩 效果 更 好 。 网 站 对 GIF 有 很 好 的 支持 ， 然 而 在 本 地 平台 上 它 没 有 得 到 统 
一 的 支持 。 












































Ht 





注 7: 这 就 是 我 们 用 手机 拍 的 照片 放 到 社交 媒体 上 能 打上 地 理 标签 的 原因 。 




















12.3.4 WebP 


WebP 格式 为 用 户 提供 了 介 于 PNG 和 JPG 之 间 的 中 间 地 带 。WebP 既 支持 无 损 模 式 和 透明 
度 ， 同 时 也 支持 有 损 模式 。 总 的 来 说 ， 你 可 以 从 JPG 和 PNG 各自 的 优点 之 间 进 行 选择 。 
虽然 听 起 来 好 像 WebP 就 是 最 好 的 图 像 格 式 ， 但 是 它 也 存在 一 些 问题 ， 最 主要 的 是 ， 浏 
览 器 不 是 100% 支持 它 。 同 时 ， 在 开发 移动 应 用 程序 时 ， 为 了 使 用 它 还 需要 包含 相应 的 库 
( 安 卓 平台 除外 ， 因 为 它 本 身 就 支持 WebP)。 除 此 之 外 ， 在 有 损 压 缩 模式 下 的 高 压缩 率 ， 
也 就 意味 着 在 解压 时 它 要 比 JPG 或 者 PNG 格式 慢 一 些 。 











12.3.5 现在， 到 了 选择 的 时 刻 

有 了 上 面 这 些 知 识 ， 对 于 给 定 的 图 像 需 要 选择 哪 种 格式 ， 我 们 应 该 已 经 有 了 非常 清晰 的 流 
程 图 。 

(1) 你 需要 透明 效果 吗 ? 


如 果 答 案 是 需要 ， 那 么 接着 问 第 二 个 问题 : 客户 端 支持 WebP 格式 吗 ? 
如 果 支 持 ， 则 选择 WebP 格式 ， 如 果 不 支 持 ， 则 选择 PNG 格式 。 




















(2) 如 果 问 题 (1) 的 答案 是 不 需要 ， 还 是 接着 问 上 面 的 第 二 个 问题 : 客户 端 支持 WebP 格式 
吗 ? 


























如 果 支 持 , 则 选择 WebP 格式 (除非 性 能 方面 会 出 现 问 题 ) ;如 果 不 支持 , 则 选择 JPG 格式 。 














互联 网 上 的 图 像 格式 争夺 战 
当 谈 到 互联 网 上 的 大 量 内 容 时 ， 图 像 算 是 目前 网 络 上 最 大 的 负载 (虽然 也 有 争论 说 视 
频 才 是 )。 
但 真正 有 意思 的 是 ， 虽 然 信息 压缩 能 解决 一 些 信息 阻塞 问题 ， 但 是 还 有 大 量 人 为 的 问 
题 ， 让 它 不 能 为 所 有 人 部 带 来 便利 。 


我 们 先 回 到 1985 年 ， 那 一 年 Unisys 公司 申请 了 LZW 压缩 算法 的 专利 。 


几 年 后 ，CompuServe 公司 以 LZW 算法 为 基础 开发 了 89a 格式 (也 就 是 后 来 的 GIF 格 
式 )， 当 时 该 公司 没有 意识 到 LZW 算法 已 申请 了 专利 。Unisys 也 没有 在 意 ， 直 到 1993 
年 Netscape 浏览 器 增加 了 对 IMG HTML 标签 的 支持 ， 同 时 也 增加 了 对 89a 格式 的 支 
持 。 一 年 内 ， 随 着 动画 图 像 在 互联 网 上 流行 起 来 ，Unisys 公司 开始 申请 对 其 专利 的 保 
护 。 最 终 CompuServe 公司 和 Unisys 公司 于 1994 年 12 月 在 法 庭 上 达成 协议 ，Unisys 
公司 宣布 将 对 使 用 89a 格式 的 所 有 软件 收取 专利 使 用 费 。 在 这 一 协议 达成 后 的 几 个 月 
里 ， 一 个 小 组 ， 由 7 名 工程 师 组 成 ， 开 发 了 PNG 这 种 全 新 的 、 无 专利 权 的 数据 格式 。 
没 过 几 个 星期 ，Netscape 浏览 器 就 全 面 支持 这 种 新 的 数据 格式 。 











156 | 第 12 章 


2004 年 ，LZW 算法 的 专利 终于 到 期 ， 但 是 整整 有 10 年 ， 关 于 GIF/PNG 这 两 种 格式 
的 争论 一 直 都 是 网 络 上 讨论 的 热门 话题 。” 


JPG 这 种 格式 成 为 标准 已 有 一 段 时 间 了 ， 同 时 它 也 得 到 了 大 多 数 图 像 编辑 程序 和 浏览 
器 的 支持 。2013 年 ， 谷 歌 和 其 他 开源 贡献 者 开发 了 一 种 新 的 图 像 编 解码 算法 ， 名 为 
WebP， 其 目标 是 在 保持 图 像 质 量 的 情况 下 ， 使 它 压缩 得 比 JPG 还 小 。WebP 节省 的 空 
间 不 算 大 ， 根 据 图 像 大 小 的 不 同 ， 与 JPG 相 比 大 约 能 节省 5%~30% 的 空间 。 然 而 ， 这 
对 需要 处 理 大 量 图 像 数据 的 公司 来 说 (比如 购物 网 站 和 社交 网 站 )， 由 此 而 节省 的 空间 
还 是 相当 可 观 的 。 对 这 些 公 司 来 说 ， 节 省 30% 的 空间 就 意味 着 费用 的 显著 下 降 、 传 输 
速度 的 加 快 以 及 加 载 时 间 的 缩短 。 


但 同时 WebP 格式 也 面临 着 一 个 很 大 的 挑战 : 让 所 有 的 浏览 器 都 支持 它 。Chrome (由 
谷歌 开发 ) 是 第 一 个 支持 它 的 浏览 器 。 然 而 ， 更 大 的 挑战 则 来 自 于 竟 争 对 手 Mozilla 
的 FireFox 浏览 器 ， 它 不 仅 不 支持 WebP 格式 而 且 还 公开 反对 ， 上 声称 WebP 不 过 尔 尔 ， 
其 压缩 能 力 还 不 如 一 些 JPG 的 变 体 。 事 实 上 ，Mozilla 的 开发 团队 其 至 开源 了 一 种 被 称 
为 MozJPEG 的 新 编 解 码 算 法 来 改善 JPG 的 无 损 压 缩 预 处 理 步 又 ， 这 一 切 都 是 为 了 阻 
止 WebP 获得 更 多 的 采用 。 


然而 这 样 的 抵制 并 没有 让 谷歌 停止 为 Google+ 以 及 Google Play store 实现 相应 的 编 解 
码 器 。Faceboook 很 快 也 以 自己 的 方式 实现 了 对 WebP 的 支持 ， 并 总 是 称 凌 WebP 在 压 
缩 和 图 像 质量 方面 的 成 就 。 从 那 之 后 ，WebP 获得 了 越 来 越 多 的 支持 ， 其 至 成 为 某 些 
视频 游戏 压缩 的 主要 部 分 。 

Mozilla 的 抵制 没有 持续 太 久 ， 到 2015 年 ， 它 对 WebP 格式 的 态度 来 了 个 180 度 的 大 
转弯， 并 公开 表示 “技术 决策 往往 是 个 人 人 和 偏好、 政治 谋略 和 公司 间 竞 争 的 结果 ， 但 客 
观 确 辫 的 数据 仍然 可 以 赢得 胜利 。 


这 样 的 表述 可 以 说 充满 智慧 。 互 联网 上 图 像 格式 的 故事 ， 让 我 们 看 到 了 与 压缩 有 关 的 
技术 采用 、 程 序 员 心理 以 及 客户 利益 等 一 些 有 趣 的 事实 。 即 使 某 个 算法 在 技术 上 是 先 
进 的 ， 它 还 是 会 受到 与 此 相关 的 同类 技术 产品 偏见 的 影响 ， 同 时 它 也 必须 获得 具有 普 
遍 怀 疑 精神 的 工程 师 的 承认 和 认同 。 











12.4 GPU 纹理 格式 


计算 机 不 能 直接 利用 压缩 格式 的 数据 绘制 图 像 ， 而 是 需要 先 将 压缩 的 数据 加 载 到 内 存 中 ， 
然后 再 解压 为 系统 可 以 直接 泻 染 的 格式 。 默 认 情 况 下 ， 图 像 会 被 解压 为 每 像素 32 位 的 格 
式 ， 其 中 红 绿 蓝 三 种 颜色 通道 以 及 alpha 通道 都 是 8 位 (也 就 是 RGBA_8888 这 种 表现 形 
式 )。 然 后 ， 图 像 会 被 当 作 纹理 传输 到 GPU 中 ， 也 就 是 说 你 生成 的 每 一 个 位 图 都 会 同时 
需要 CPU 和 GPU 内 存 。 结 果 就 是 ， 不 论 图 像 在 网 络 上 的 压缩 质量 如 何 ， 当 在 设备 上 显示 
时 ， 它 就 会 占用 大 量 的 内 存 。 


















































注 8: 在 这 一 问题 解决 后 ， 和 争论 又 转移 到 “GIF” 的 正确 发 音 上 。 
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好 消息 是 ，GPU 能 直接 泻 染 的 像素 压缩 格式 是 存在 的 ， 因 此 你 可 以 利用 这 一 点 ， 将 从 网 络 
中 传输 过 来 的 数据 解压 为 这 些 压缩 格式 之 一 ， 这 样 GPU 就 可 以 直接 泻 染 ， 而 无 须 解压 这 
一 步骤 。DXT、ETC 和 PVR 就 是 几 种 这 样 的 有 损 像 素 压缩 格式 ( 见 图 12-7) “。 























图 12-7: 与 RGBA_8888 相 比 ，DXT1、ETC1 和 PVR 这 几 种 有 损 GPU 纹理 压缩 格式 所 需 的 空间 
要 更 少 ， 同 时 在 很 多 情况 下 能 保持 很 高 的 图 像 质 量 


尔 能 想象 到 ， 这 些 GPU 纹理 压缩 格式 对 视频 游戏 开发 人 员 是 多 么 有 用 ! 不 仅仅 因为 视频 
游戏 中 包含 很 多 的 图 像 信息 ， 更 重要 的 是 几乎 可 以 认为 它们 需要 在 GPU 内 存 中 一 直 保持 
可 用 状态 。 因 此 ， 任何 内 存 占用 上 的 贡 省 对 于 应 用 程序 的 流 畅 和 稳定 都 很 重要 。 


12.5 矢量 格式 


通常 来 说 ， 图 像 是 通过 二 维 网 格 中 的 像素 来 显示 的 ， 这 些 像素 表示 的 是 图 像 本身 的 颜色 。 
当 从 远 处 观察 图 像 时 ， 像 素 之 间 的 边缘 就 会 消失 ， 这 样 人 的 眼睛 (被 欺骗 了 ) 看 到 的 就 是 
平 请 的 颜色 渐变 。 这 种 类 型 的 图 像 通 常 被 称 为 光栅 格式 图 像 (raster format image ) ， 它 可 以 
(比较 直接 地 ) 在 屏幕 上 泻 染 。 











但 是 如 果 传 输 的 不 是 最 终 的 图 像 ， 而 是 描述 图 像 是 怎样 生成 的 语句 呢 ? 这 就 是 矢量 图 像 格 
式 背 后 的 概念 。 一 般 来 说 ， 这 样 的 格式 里 包含 的 是 一 些 程序 指令 ， 只 要 按照 顺序 执行 就 会 
生成 最 终 的 输出 图 像 。 














图 12-8 显示 了 同一 幅 图 像 的 光栅 格式 表示 和 矢量 格式 表示 ， 从 中 可 以 看 出 取舍 很 明显 。 




















注 9: 图 12-7 的 彩色 图 片 , 请 通过 本 书 图 灵 社 区 页 面 (https://www.ituring.com.cn/book/1893) 的 “ 随 书 下 载 ” 
处 获取 。 一 一 编者 注 
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图 12-8: 光栅 格式 图 像 ( 左 图 ) 和 矢量 格式 图 像 ( 右 图 ) 的 对 比 示例 。 值 得 注意 的 是 ， 矢 量 格式 图 
像 更 简单 ， 包 含 的 像素 细节 也 更 少 。 这 是 因为 这 种 图 像 格 式 不 适合 用 来 生成 高 质量 的 数据 


矢量 格式 有 一 些 很 有 趣 的 优点 。 例 如 ， 对 某 些 类 型 的 复杂 图 像 来 说 ， 比 如 主要 是 由 线 组 成 
的 技术 图 纸 ， 列 出 其 中 的 点 并 描述 如 何 连 接 这 些 点 就 要 比 传输 每 个 像素 有 效 得 多 。( 这 也 
是 一 种 形式 的 压缩 。) 此 外 ， 0 当 需 要 在 不 同 的 设备 上 显示 同 
一 图 像 的 缩 略 图 、 图 标 和 全 屏 形式 时 ， 这 一 性 质 相 当 有 用 。 


当然 ， 付 出 的 代价 就 是 加 载 的 时 间 。 因 为 需要 通过 执行 指令 来 为 GPU 生成 光栅 化 的 图 像 ， 
所 以 ， 这 一 格式 就 是 在 用 客户 端的 速度 换文 件 的 大 小 。 虽 然 它 可 以 使 需要 传输 的 数据 变 
小 ， 但 在 泻 染 时 由 于 需要 重新 生成 图 像 ， 因 而 加 大 客户 端的 时 间 开 销 。 


SVG 是 一 种 常用 的 矢量 图 像 格式 。 无 论 源 数据 多 大 ， 有 了 它 ， 我 们 就 能 用 很 少 的 内 存 来 描 
述 图 像 ， 并 在 客户 端 生成 高 质量 的 与 分 辩 率 无 关 的 图 像 。 当 然 ，SVG 也 有 一 些 局 限 ， 其 中 
之 一 是 它 只 能 用 来 表示 某 种 类 型 的 图 像 质量 。 也 就 是 说 ， 矢 量 图 像 通常 比较 简单 ， 只 会 使 
用 一 组 最 基本 的 类 型 来 定义 如 何在 屏幕 上 生成 颜色 。 例 如 ， 草 原 上 的 一 片 绿地 ， 由 于 涉及 
太 多 复杂 的 形状 ， 因 此 如 果 用 矢量 图 来 表示 ， 根 本 就 不 会 节省 空间 。 


总 的 来 说 ， 矢 量 格式 适用 于 标志 、 技 术 图 纸 以 及 简单 的 图 像样 式 ， 而 光栅 格式 则 适用 于 相 
片 以 及 其 他 信息 密集 的 图 像 。 


下 面 给 出 一 个 示例 让 你 来 试 试 ， 这 一 SVG 文件 会 生成 如 图 12-9 所 示 的 图 形 。 















































<svg height="140" width="140"> 
<defs> 
<filter id="f1" x="0" y="0" width="200%" height="200%"> 
<feoffset result="offOut" in="SourceGraphic" dx="20" dy="20" /> 
<feColorMatrix resuLt ="matrixOut" in ="offOut" 
type ="matrix" 
vaLues ="0.2000000.2000000.20000010"/> 
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<feGaussianBluyr resuLt="bLur0ut” in="matrixOut" 
stdDeviation="10" /> 
<feBlend in="SourceGraphic" in2="blurOut" mode="normal" /> 
</filter> 
</defs> 
<rect width="90" height="90" stroke="green" stroke-width="3" 
fill="yellow" filter="url(#f1)" /> 
</svg> 

















12-9: 由 示例 SVG 文件 生成 的 图 形 


12.6 ”收获 的 捷径 


对 现代 应 用 程序 来 说 ， 与 用 户 进行 交互 的 数据 绝 大 多 数 是 图 像 。 运 营 方 经 常 向 用 户 发 送 的 
是 缩 略 图 、 新 的 图 像 、 社 交 媒 体 推送 、 朋 友 的 照片 以 及 广告 这 些 内 容 。 用 户 则 会 经 常 上 传 
一 些 他 们 日 常生 活 中 的 照片 和 内 容 。 当 你 考虑 减少 应 用 程序 的 数据 所 占用 的 空间 时 ， 图 像 
应 该 是 你 最 先 关 注 的。 可 以 说 ， 这 是 最 容易 实现 的 目标 ,而且 常常 是 小 的 改变 就 能 带 来 大 
的 收获 。 
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序列 化 数据 











除了 图 像 数 据 ， 序 列 化 内 容 是 网 络 应 用 程序 处 理 第 二 多 的 数据 格式 。 压 缩 图 像 数据 这 项 工 
作 肯 定 会 事半功倍 ， 但 是 仔细 研究 序列 化 内 容 也 同样 重要 。 


这 里 所 说 的 “序列 化 ”是 什么 意思 呢 ? 序列 化 是 将 高 级 数据 对 象 转 化 为 二 进 制 字符 串 的 过 
程 〈 与 之 相反 的 过 程 则 称 为 反 序 列 化 )。 这 一 转换 可 以 应 用 到 很 多 不 同 的 数据 类 型 上 ， 但 
用 它 来 描述 将 内 存 中 的 结构 体 或 者 类 转化 为 能 通过 网 络 传输 的 文件 或 者 内 存 二 进 制 大 对 象 
的 过 程 是 最 准确 的 。 


这 种 特定 的 使 用 是 现代 移动 和 网 络 应 用 程序 的 数据 转换 中 最 常见 的 场景 。 我 们 不 妨 来 看 一 
下 你 最 喜欢 的 社交 媒体 应 用 程序 。 当 你 第 一 次 加 载 它 时 ， 为 了 在 屏幕 上 显示 正确 的 信息 ， 
在 客户 端 和 服务 器 端 之 间 就 有 很 多 序列 化 数据 的 传输 。 当 你 收 到 更 新 、 新 闻 或 者 信息 时 ， 
其 底层 仍然 是 序列 化 数据 的 传输 。 当 你 发 布 自己 的 最 新 状态 时 ， 这 一 输入 将 被 写 人 设备 的 
内 存 中 ， 序 列 化 后 会 被 上 传 到 服务 器 端 ， 然 后 会 被 反 序列 化 并 写 人 数据 库 中 ， 接 着 会 再 次 
被 序列 化 以 便 将 更 新 发 送 给 你 所 有 的 朋友 。 


虽然 从 文件 大 小 上 来 看 图 像 是 数据 压缩 的 主要 对 象 ， 但 是 序列 化 内 容 被 压缩 的 次 数 要 
更 多 。 


这 就 意味 着 ， 压 缩 的 性 能 对 序列 化 速度 、 反 序列 化 速度 ， 以 及 需要 发 送 给 数 百 万 用 户 的 结 
有 果 文 件 大 小 来 说 至 关 重 要 。 为 了 让 你 有 更 多 的 了 解 ， 下 面 来 看 看 两 种 最 常见 的 序列 化 文件 
格式 XML 和 JSON， 并 讨论 一 些 能 让 这 些 文件 变 得 更 小 的 技术 。 
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13.1 了 解 常见 的 使 用 场景 


清楚 地 了 解 序列 化 内 容 是 怎样 使 用 的 很 重要 ， 因 为 这 会 对 你 决定 如 何 压 缩 数 据 产 生 很 大 影 
响 。 我 们 下 面 来 看 看 序列 化 数据 最 常见 的 使 用 场景 。 


13.1.1 服务 器 动态 生成 的 数据 

这 是 现代 移动 应 用 程序 中 最 常见 的 序列 化 数据 类 型 。 客 户 端 通常 会 向 服务 器 发 出 查询 请 
求 ， 可 能 请 求 的 是 数据 库 操作 的 结果 ， 服 务 器 计算 出 结果 ， 将 其 内 容 序 列 化 后 再 发 送 给 客 
户 端 ， 由 客户 端 进行 反 序 列 化 。 在 这 个 过 程 中 ，HTTP 协议 栈 通常 会 对 序列 化 数据 进行 进 
一 步 的 压缩 (例如 使 用 GZIP)， 从 而 使 文件 变 得 更 小 。 考 虑 到 市 省 的 空间 相当 可 观 ， 因 此 
客户 端 付出 的 解压 时 间 开 销 是 值得 的 。 


13.1.2 服务 器 拥有 的 静态 数据 
虽然 动态 生成 的 数据 很 常见 ， 但 是 应 用 程序 同样 也 有 静态 的 序列 化 内 容 ， 例 如 ， 向 客户 端 
发 送 最 新 的 配置 文件 。 开 发 者 会 在 服务 器 上 不 定期 地 更 新 这 些 文件 ， 而 且 通 常 是 离线 进行 
的 。 这 样 ， 服 务 器 就 可 以 认为 这 些 文件 是 静态 的 ， 并 在 客户 端 请 求 时 将 其 发 送 过 去 。 同 
样 ， 这 些 文件 也 会 被 HTTP 协议 栈 进 一 步 压 缩 。 


13.1.3 客户 端 动 态 生成 的 数据 

在 很 多 情况 下 ， 客 户 端 也 会 向 服务 器 发 送信 息 ， 其 中 就 有 客户 端 本 身 生成 序列 化 信息 的 情 
形 。 这 就 意味 着 序列 化 操作 以 及 数据 压缩 过 程 的 所 有 开销 都 完全 由 客户 端 设 备 来 承担 。 对 
便携 式 计算 机 或 台式 计算 机 来 说 ， 这 可 能 不 是 问题 ， 但 对 移动 电话 、 平 板 计 算 机 和 可 穿戴 
设备 来 说 ， 久 而 久之 可 能 就 会 造成 大 有 麻烦。 此外， 由 于 这 些 设备 往往 电量 有 限 ， 因 此 一 般 
不 倾向 于 将 客户 端的 资源 花 在 要 上 传 的 数据 的 压缩 上 。 这 就 形成 了 一 种 独特 的 平衡 行为 ， 
即 开 发 人 员 需 要 解决 他 的 应 用 程序 面临 的 此 类 问题 。 


13.1.4 客户 端 拥 有 的 静态 数据 

最 后 ， 还 有 一 类 存储 在 本 地 且 客 户 端 一 直 在 使 用 的 数据 ， 例 如 ， 布 局 信息 就 是 一 次 编写 然 
后 被 多 次 加 载 ， 而 且 也 没有 什么 变化 。 这 样 的 信息 很 容易 压缩 ， 而 且 通 常 是 在 应 用 程序 的 
构造 期 间 ， 此 时 有 额外 的 电源 可 用 。 客 户 端 唯一 需要 做 的 ， 就 是 保持 数据 驻 留 (或 者 永久 
地 存储 起 来 ) 并 在 需要 时 将 其 加 载 到 内 存 中 。 


13.2 ”序列 化 格式 的 问题 


目前 ， 两 种 最 常见 的 序列 化 格式 就 是 SON 和 XML， 这 主要 是 由 于 在 过 去 的 20 年 中 它们 
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被 网 络 平台 广泛 地 使 用 。 虽 然 易 用 并 且 很 流行 ， 但 是 这 两 种 格式 还 是 遇 到 了 一 些 非 常 特殊 
的 压缩 问题 。 


13.2.1 可 读 文 本 

JSON 和 XML 这 两 种 格式 最 吸引 人 的 地 方 在 于 ， 它 们 (或 多 或 少 ) 是 可 读 的 。 也 就 是 说 ， 
如 果 用 文本 编辑 器 打开 序列 化 后 的 文件 ， 就 可 以 读 取 全 部 内 容 ， 如 下 随机 选取 的 JSON 代 
码 片段 所 示 。 

















{ 
"base": { 
"reboot": { ...omitted for brevity... }, 
"updateBaseConfiguration": { ...omitted for brevity... } 
}s 
"robot": { 
"jump": { 
"parameters": { 
"height": { 
"type": "integer", 
"minimum": 0， 
"maximum": 100 
}, 
"_jumpType": { 
"type": "string", 
"enum": [ "_withAirFlip", "_withSpin", "_withKick" ] 
} 
} 
}; 
"speak": { 
"parameters": { 
"phrase": { 
"type": "string", 
"enum": [ "beamMeUpScotty", "iDontDigOnSwine", "ipityDaFool", 
"dangerWillRobinson"” ] 
所 
"volume": { 
"type": "integer", 
"minimum": 0， 
"maximum": 10 
} 
} 
} 
} 
} 


正如 你 看 到 的 ， 它 通过 将 文件 表示 为 一 组 字符 串 值 ， 并 用 标记 拼凑 在 一 起 ， 来 定义 事物 是 
如 何 关联 的 。 


其 优点 在 于 格式 十 分 灵活 ( 绝 大 多 数 数据 结构 可 以 找到 序列 化 为 这 种 格式 的 方法 )， 但 缺 
点 也 很 明显 ， 为 了 保证 可 读 性 ， 其 中 包含 了 大 量 的 见 余 信息 。 





只 需 看 一 看 前 面 的 JSON 代码 片段 ， 我 们 就 会 发 现 为 了 使 整个 文件 可 读 ， 其 中 包含 了 大 量 
的 空格 、 换 行 符 和 双 引 号 。 因 此 ， 需 要 编码 的 文件 比 实际 需要 的 要 大 。 当 有 数值 时 ， 这 个 
问题 更 严重 。 例 如 ， 如 果 序 列 化 的 文件 中 含有 “3.141 592 653 589 793” 这 个 值 ， 那 它 会 至 
少 需要 17 个 字 节 (由 于 编码 格式 的 不 同 ， 因 此 占用 的 字 节 数 可 能 会 更 多 )。 考 虑 到 用 序 点 
数 来 表示 这 个 值 只 需要 8 个 字 节 (或 者 64 个 二 进 制 位 ) ， 这 是 很 大 的 浪费 ; 人 类 可 读 的 表 
示 方 法 需要 的 空间 比 二 进 制 方法 的 两 倍 还 多 。 





13.2.2 ”解码 时 间 长 

需要 注意 的 是 ， 这 样 的 文本 格式 在 解码 时 常常 会 需要 很 长 时 间 。 其 原因 是 多 方面 的 : 一 是 
字符 串 的 输入 必须 经 过 强力 操作 才能 转化 为 内 存 对 象 (例如 将 ASCII 符号 转换 为 整数 就 不 
那么 容易 ) ， 二 是 在 加 载 期 间 将 数据 保存 在 临时 内 存 里 并 非 总 是 高 效 的 ， 三 是 对 旧 格 式 的 
兼容 也 会 使 得 编码 和 解码 变 慢 。 

由 此 带 来 的 另外 的 问题 是 ， 像 XML 和 JSON 这 样 的 格式 都 倾向 于 有 较 长 的 加 载 时 间 ， 以 
便 客户 端 能 正确 地 反 序列 化 。 事 实 上 ， 存 在 不 少 XML 和 JSON 编码 器 专注 于 减少 特定 组 
织 的 文件 类 型 的 加 载 时 间 。 


13.3 更 小 的 序列 化 数据 


有 了 这 些 知识 ， 我 们 就 可 以 有 一 些 技巧 减 小 发 送 给 用 户 的 XML 和 JSON 文件 的 大 小 。 






































13.3.1 使 用 二 进 制 序 列 化 格式 

最 简单 有 效 的 方法 就 是 将 XML 和 JSON 格式 扔 到 一 边 ， 找 出 一 种 二 进 制 序列 化 格式 来 代 
替 它 们 。 虽 然 二 进 制 格式 不 再 具备 XML 和 JSON 的 可 读 性 ， 但 是 能 保证 数据 用 紧凑 和 高 
效 的 二 进 制 形式 编码 。 这 样 ， 文 件 就 会 变 小 ， 加 载 速度 也 会 变 快 。 


虽然 二 进 制 序列 化 的 格式 很 丰富 ， 但 是 我 们 最 喜欢 的 一 些 格式 处 于 文件 大 小 和 解压 时 间 平 
衡 的 位 置 。 如 果 你 想 定义 自己 的 格式 ， 那 么 Protobufs、Flatbuffers 和 Cap’n Proto 应 该 是 你 
最 先 评估 的 几 种 格式 。 




















但 是 如 果 你 还 没有 打算 放弃 XML 和 JSON， 或 者 你 的 老板 不 让 你 放弃 基于 文本 的 序列 化 格 
式 呢 ? 也 有 很 多 方法 可 以 让 JSON 数据 序列 化 时 效率 更 高 ， 同 时 也 能 让 它 变 得 更 可 压缩 。 
像 BSON 和 MSGPACK 这 些 格式 虽然 保留 了 JSON 的 模式 ， 但 在 编码 时 能 提供 二 进 制 的 大 
小 。 这 可 以 让 你 得 到 更 小 的 文件 ， 而 无 须 改 动 大 量 的 代码 。 


这 些 二 进 制 格式 的 真正 优点 在 于 ， 与 人 类 可 读 格 式 相 比 ， 它 们 可 以 产生 更 好 的 压缩 效果 ， 
并 且 在 某 些 情 况 下 ， 实 际 上 还 可 以 使 用 通用 编码 工具 如 GZIP 对 它 进 行进 一 步 压缩 。 
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13.3.2” 重 构 列 表 以 获得 更 好 的 压缩 

下 面 这 点 很 有 意思 : 当 你 对 数据 进行 序列 化 时 ， 甚 实 大 多 数 时 间 ， 你 所 做 的 只 是 将 数据 内 
容 映 射 为 内 存 对 象形 式 。 我 们 来 看 看 下 面 这 段 代 码 ， 想 想 左边 的 结构 体 是 怎样 序列 化 为 右 
边 的 JSON 代码 的 。 





struct { { 
int id; "ds 25; 
char* name; "name": "Hooty McOwlface", 
int gender; "gender": 27， 
int age; "age": 88, 
char* address; "address": "1600 Amphitheatre Pkwy, Mountain View, CA 94043" 
int employeelID; "employeeID": 3025 
} }, 





JSON 文件 中 属性 的 排序 往往 与 内 存 中 相应 结构 的 表示 相同 ， 虽 然 这 对 程序 员 来 说 易于 维 
护 ， 但 是 由 此 生成 的 整个 结构 的 列表 不 能 产生 最 好 的 压缩 结果 。 
首先 ， 由 于 JSON 对 象 《可 以 随便 选 一 个 观察 一 分 钟 ) 是 由 键 值 对 组 成 的 ， 由 于 该 结构 体 
的 每 个 实例 中 都 包含 相同 的 属性 ， 因 此 对 整个 文件 来 说 包含 大 量 的 元 余 信 息 。 在 下 面 这 个 
包含 人 名 及 国籍 的 列表 中 ， 对 每 个 人 都 必须 重复 “name” 和 “country” 这 两 个 关键 字 。 











"name": "Joanna " ， 
"country": "USA" 
拭 
"name": "ALex " ， 
"country": "AUS " 
和 
{ 
"name": "Colt", 
"country": "USA" 


对 以 这 种 形式 列 出 很 多 元 素 的 大 的 JSON 文件 来 说 ,，“name” 和 “country” 这 两 个 关键 字 
的 重复 出 现 使 最 终 的 文件 变 大 很 多 。 


其 次 ， 回 想 一 下 ， 像 GZIP 这 样 的 编码 工具 在 最 初 的 转换 步骤 中 使 用 的 是 LZ 算法 ， 这 就 
意味 着 如 有 果 能 在 搜索 窗口 中 发 现 重 复 的 数据 模式 的 话 ，LZ 算法 就 能 充分 发 挥 作用 。 


想象 一 下 ， 在 一 个 文件 中 全 是 这 样 的 雇员 数据 ， 并 且 问 在 的 重复 值 之 间 还 存在 着 空白 。 例 
如 ， 在 序列 化 的 文件 中 ， 一 个 “age” 值 离 下 一 个 “age” 值 可 能 有 一 两 千 个 搜索 窗口 。 


只 需要 简单 地 对 列表 内 容重 新 排序 ， 你 就 能 解决 属性 的 重复 和 相似 属性 值 之 间 的 距离 这 两 




















个 问题 。 如 下 面 的 示例 所 示 ， 你 可 以 将 前 面 的 数组 结构 (array structure) 转换 为 某 个 给 定 
属性 的 所 有 值 都 包含 在 一 个 数组 中 ， 并 紧密 地 放 在 一 起 。” 


{ 











"name": ["Joanna", "Alex", "Colt"], 
"country": ["USA", "AUS", "USA"] 
} 


这 既 减 少 了 元 余 ， 同 时 也 使 LZ 算法 更 容易 找到 匹配 。 


用 编程 的 语言 来 就 是 ， 对 于 大 的 序列 化 文件 ， 将 结构 的 数组 转换 为 数组 的 结构 极为 重要 。 
因此 ， 当 你 需要 处 理 大 的 JSON 或 者 XML 文件 时 ， 建 议 你 认真 考虑 这 样 的 转换 。 








13.3.3 组织 数据 以 便 高 效 获取 

还 可 以 进一步 扩展 结构 转换 这 一 概念 。 真 的 需要 从 服务 器 中 获取 完全 结构 化 的 数据 吗 ? 还 
是 可 以 分 别 请 求 每 种 类 型 的 数据 (如 果 有 必要 的 话 ， 再 在 客户 端 将 这 些 数据 汇总 起 来 ) ? 
当前 ， 后 端 应 用 程序 往往 喜欢 为 所 有 的 用 户 都 提供 通用 的 API。 虽 然 这 对 后 端 系 统 来 说 是 合 
理 的 策略 ， 但 对 客户 端 来 说 并 不 那么 友好 ， 因 为 这 样 做 的 最 终结 果 是 ， 应 用 程序 将 传输 和 处 
理 数据 的 任务 放 在 了 客户 端的 小 型 设备 上 ， 而 实际 上 有 些 计算 在 服务 器 上 处 理会 更 高 效 。 
























































如 果 你 的 应 用 程序 显示 的 是 混合 内 容 ， 那 么 你 需要 确保 客户 端 通过 一 次 请 求 就 能 获取 所 有 
信息 ， 同 时 保证 服务 器 返回 的 数据 适合 分 段 缓存 。 一 般 来 说 ， 你 希望 客户 端 能 识别 出 实 
体 ， 以 便 将 其 持久 地 存储 起 来 ， 同 时 避免 同样 的 对 象 在 内 存 中 出 现 。 


在 获取 这 种 类 型 的 数据 时 ， 很 多 API 返回 的 是 非 正 规 化 的 分 层 数据 。 虽 然 这 是 大 多 数 网 络 
客户 端的 首选 方法 ， 但 对 移动 客户 端 来 说 不 太 适 用 ， 因 为 移动 客户 端 需要 的 是 持久 的 数据 
以 及 能 从 本 地 存储 中 获取 服务 。 


与 其 返回 分 层 的 数据 ， 不 如 返回 规范 化 的 数据 。 






































我 们 来 看 看 下 面 这 个 不 好 的 例子 ， 同 样 的 user_id 和 user_name 在 很 多 地 方 重复 出 现 。 客 
户 端 获取 到 这 样 的 数据 后 ， 需 要 先 将 大 的 对 象 分 解 ， 提 取出 内 部 的 用 户 对 象 并 去 掉 重 复 
的 ， 然 后 再 将 剩 下 的 对 象 存储 到 本 地 的 数据 库 或 内 存 缓存 中 。 

{ 


"messages" : [{ 
"from" : { 
































注 1: 从 技术 上 来 说 ， 准 确 的 英文 表述 应 该 是 “array of structs”， 或 者 称 为 “数据 对 象 的 列表 ” (a list of data 

objects ) 。 
注 2: 值得 指出 的 是 ， 这 并 不 是 序列 化 内 容 独 有 的 概念 ， 你 如 果 以 前 处 理 过 与 CPU L2 缓存 驻 留 有 关 的 运行 
性 能 问题 ， 就 知道 那里 用 的 是 同样 的 解决 方法 。 
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"user id” : 1， 
"User_name" : "claude", 


nd 


"text" : 
hello", 
"date" : 


}， 
{ 


“RON 六 浊 
"user_id" : 


"User_name” : 


"hello 


"123" 


二 
"claude", 


"text" : "how are you", 


"date" : "124" 


}， 
{ 


"ReomY #{ 


"user_id" 


) i 


3 了 5 
"User_name” : 


"claude", 


"text" : "you there", 


"date" : "125" 


}， 
{ 


"from" 


: { 


"user_id" : 


1， 


"user_name”: "claude", 


}, 


"text" : "hello 


hello", 


"date" : "126" 


}] 














我 们 再 看 一 个 好 的 例子 。 





{ 


"users" : { 
"1" :of{ 


"user_id" : 


"user_nName" : 


} 
js 
"messages" : [{ 
VEOMY s Ts 
"text” : 
hello", 
"date" 


3 


1， 
"claude", 


"hello 


123" 





序列 化 数据 
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{ 


"FROM 读 沁 ; 
"text"” : "how are you", 
"date"” : "124" 
3 
{ 
WFROM 1; 
"text" : "you there", 
"date” : "125" 
]， 
€ 
"froOm 2 1 
"text" : "hello 
hello", 
"date"” : "126" 
}] 
} 





这 对 客户 端 来 说 要 容易 得 多 ， 因 为 每 个 对 象 都 只 出 现 一 次 。 同 时 服务 器 返回 的 “用 户 ” 信 
息 很 容易 就 能 提取 出 来 ， 用 来 更 新 数据 库 和 内 存 缓存 。 

不 过 还 可 以 做 得 更 好 ， 使 数据 完全 不 再 分 层 ， 不 信 可 以 看 看 下 面 的 方法 。 信 息 还 是 那些 信 
息 ， 不 过 不 再 有 重复 ， 而 且 更 紧凑 、 更 容易 直接 处 理 。 



































{ 
"users" : { 
2 
"user_id" : 1， 
"User_name" : "claude", 
} 
3 
"messages"” : { 
"from": [it,11]; 
"text": [ "hello 
hello","how are you", "you there","hello 
hello"], 
} 


[uy 


客户 端 对 需要 显示 的 数据 掌握 的 信息 越 多 ， 效 率 就 越 高 。 应 用 程序 决定 缓存 或 者 删除 哪些 


数据 ， 例 如 ， 怎 样 在 新 数据 达到 时 使 布局 无 效 。 移 动 客 户 端 要 比 简 单 的 HTML 演 染 器 更 强 
大 ， 你 完全 可 以 将 比较 好 的 结构 化 数据 交 给 它 来 处 理 。 























13.3.4 ”将 数据 切 分 为 适当 的 压缩 格式 

一 般 来 说 ， 像 ON 和 XML 这 样 的 序列 化 格式 ， 其 实 是 多 种 类 型 数据 的 “ 厅 物 抽 展 ”。 你 
可 以 将 整数 、 字 符 串 、 浮 点 数 ， 其 至 是 图 像 和 声音 数据 都 放 进 去 ， 然 后 全 部 编码 为 这 种 效 
率 不 高 的 序列 化 格式 。 
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然而 ， 将 这 些 大 的 数据 类 型 单独 分 开 然后 再 压缩 ， 产 生 的 压缩 效果 肯定 要 比 将 它们 放 在 文 
件 中 后 再 压缩 好 。 不 妨 认真 想 一 想 。 如 果 你 需要 压缩 一 个 包含 2600 个 倒 排 索引 的 JSON 文 
件 ， 那 么 GZIP 肯定 帮 不 了 太 大 忙 。 不 过 ， 如 果 先 将 索引 分 开 进 行 增 量 编码 ， 就 可 以 有 显 
著 的 改善 。 














这 同样 适用 于 图 像 。 有 有 段 时 间 出 现 了 一 种 很 可 怕 的 趋势 ， 在 设计 响应 式 网 页 时 将 base64 编 
码 的 PNG 文件 〈 即 用 ASCII 字符 串 格式 来 表示 二 进 制 数据 ) 放 在 CSS 文件 中 。 这 样 做 的 
理由 是 ,传输 包含 了 图 像 信息 的 CSS 文件 与 传输 不 包含 图 像 信 息 的 CSS 文件 之 间 的 时 间 
差 ， 要 比 使 用 网 络 额外 传输 缩 略 图 所 花 的 时 间 要 短 。 除 了 极 少数 情况 外 ， 我 们 不 能 容忍 移 
动 应 用 程序 中 出 现 这 样 的 操作 。 


当 你 想 尽 办 法 想 为 用 户 创 造 快 乐 时 ， 数 据 压缩 可 能 不 会 第 一 时 间 出 现在 你 的 脑海 中 。 我 们 
想 强 调 的 是 ， 它 应 该 出 现 ， 至 少 是 在 每 天 的 某 些 时 刻 你 能 想到 。 就 像 应 用 程序 的 其 他 基础 
架构 一 样 ， 如 果 你 能 将 数据 压缩 融入 到 应 用 程序 的 开发 过 程 中 ， 结 果 肯 定 是 事半功倍 : 它 
不 仅 可 以 让 用 户 更 高 兴 ， 可 能 还 会 带 来 更 高 的 一 利 。 

无 论 你 是 准备 用 内 置 的 压缩 工具 ， 还 是 根本 不 用 压缩 工具 ， 或 者 不 同 的 数据 类 型 用 不 同 的 
管道 来 压缩 ， 重 要 的 是 根据 你 所 掌握 的 数据 有 意识 地 做 出 选择 。 

将 图 像 压 缩 和 数据 序列 化 的 工作 做 好 ， 有 助 于 应 用 程序 安全 度 过 其 生命 周期 。 如 果 在 开发 
工作 的 初期 就 对 数据 压 缮 有 正确 的 认识 ， 有 助 于 始终 保持 客户 端的 “ 轻 咎 ”状态 。 因 此 ， 
要 从 一 开始 就 做 起 ， 而 不 是 在 最 后 …… 你 说 对 吧 ? 
























































第 14 章 


有 损 数据 压 纺 





或 许 ， 你 已 经 注意 到 本 书 花 了 大 量 篇 幅 讨 论 无 损 压 缩 算 法 ， 也 就 是 说 解码 后 的 数据 与 源 数 
据 的 每 一 位 都 相同 。 











然而 ， 在 应 用 程序 的 日 常 运行 中 ， 大 多 数 你 真正 担心 的 内 容 其 实 是 用 有 损 压 缩 工具 压缩 
的 。 在 像 图 像 、 声 音 以 及 视频 这 些 内 容 中 包含 的 信息 超出 了 人 类 的 视觉 系统 和 听觉 系统 能 
(或 者 需要 ) 处 理 的 范围 ， 即 使 通过 有 损 压 缩 格式 去 掉 了 额外 的 信息 ， 人 们 依然 能 享受 到 
良好 的 视觉 和 听觉 体验 。 














有 损 压 缩 工具 通常 会 被 首先 应 用 ， 以 减少 数据 的 动态 变化 范围 ， 从 而 为 进一步 的 无 损 压 缩 
做 准备 。 


必须 要 清楚 : 有 损 压 缩 工具 其 实 有 无 限 多 种 ， 选 择 哪 一 种 取决 于 需要 处 理 的 数据 类 型 、 你 
的 需求 以 及 用 户 愿 意 容 妨 多 大 范围 的 失真 。 实 际 上 ， 它 才 是 数据 压缩 领域 内 最 富饶 的 土 
地 ， 因 而 能 做 的 事情 还 有 很 多 。 
































那么 ， 为 什么 没有 在 本 书 中 更 多 地 讨论 有 损 压 缩 算法 呢 ? 
其 实 理由 也 很 简单 …… 因 为 那 会 是 另外 一 本 书 。 
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第 15 章 


让 世界 变 得 更 小 





15.1 数据 压缩 与 你 


不 知 不 觉 中 你 已 读 到 了 本 书 的 末尾 ， 前 面 的 章节 详细 地 介绍 了 那些 产 于 20 世纪 60 年 代 的 算 
法 ， 这 些 算 法 对 当前 的 计算 与 技术 仍然 有 着 显著 的 影响 。 然 而 ， 情 况 又 会 如 何 发 展 呢 ? 很 多 
工程 师 会 高 兴 地 举 双 手 赞成 ， 认 为 压缩 是 一 个 已 解决 的 问题 ， 或 者 对 自己 来 说 压缩 并 非 一 项 
特别 重要 的 能 力 。 不 过 事实 是 ， 在 未 来 的 几 十 年 里 ， 数 据 压缩 的 重要 性 丝毫 不 会 比 以 前 差 。 
因此 ， 研 究 一 下 数据 压缩 是 如 何 与 你 、 你 的 公司 以 及 未 来 的 技术 相互 关联 的 ， 是 值得 的 。 


15.2 ”数据 压缩 与 盈利 


当 涉 及 你 以 及 你 的 公司 时 ， 下 数据 压缩 与 公司 的 恒利 是 如 此 紧密 地 交织 在 
一 起 ， 以 至 于 拥有 这 方面 技术 的 公司 能 节省 如 下 费用 : 


。 用 户 获 取 与 保持 
。 运行 成 本 
。 提前 规划 

















下 面 来 更 详细 地 讨论 。 











15.2.1 用 户 获取 与 保持 


网 页 的 加 载 速度 与 用 户 转化 率 之 间 有 着 直接 的 关系 。 如 果 网 页 的 加 载 速 度 不 够 快 ， 用 户 就 
会 放弃 所 有 在 做 的 事情 ， 包 括 购买 你 的 产品 。 反 过 来 说 ， 如 果 你 将 产品 页 的 数据 压 得 越 
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小 ， 网 页 加 载 的 速度 就 会 越 快 ， 那 么 用 户 购买 以 及 下 次 继续 访问 的 可 能 性 就 会 增 大 。 


统计 数据 显示 ， 如 果 移动 页 面 加 载 超过 4 秒 钟 ， 那 么 平均 每 4 个 用 户 中 就 会 有 一 个 用 户 
放弃 浏览 该 页 面 。 这 样 的 测试 也 值得 你 的 网 页 去 做 ， 因 为 这 意味 着 仅仅 从 网 页 加 载 方 盏 
就 能 对 公司 的 便利 产 生 巨 大 的 影响 。 如 果 你 需要 更 具 说 服 力 的 证 据 ， 可 以 看 看 下 面 这 些 真 
实 的 故事 。 


。 亚马逊 的 数据 显示 ， 网 页 的 加 载 速 度 每 慢 100 毫秒 ， 其 收入 就 会 下 降 1%。 或 者 ， 换 一 
个 角度 来 看 ， 对 像 亚 马 逊 这 样 的 商业 巨头 来 说 ， 如 果 网 页 加 载 速度 慢 了 1 秒 ， 其 收入 就 
会 减少 16 亿美 元 。 反 过 来 看 就 是 ， 亚 马 逊 的 网 页 加 载 速度 每 快 100 毫秒 ， 其 收入 就 会 
增加 1%。 

。 沃尔玛 的 最 新 报告 显示 ， 其 页 面 加 载 速度 每 加 快 1 秒 ， 它 的 客户 转化 率 就 增加 2%。 网 
页 加 载 速度 每 提升 100 毫秒 ， 公 司 的 收入 就 会 增加 1%。 

。 Shopzilla 网 站 将 其 网 页 平均 加 载 速度 由 6 秒 缩短 为 1.2 秒 后 ， 其 收入 增加 了 12%， 同 时 
网 页 浏览 量 增 加 了 25%。 

。 像 AutoAnything 这 样 的 小 网 站 将 加 载 时 间 缩 短 为 原来 的 一 半 后 ， 其 收入 增加 了 13%。 


此 外 ， 更 好 的 网 站 评论 、 更 多 的 下 载 口碑 和 更 好 的 客户 保持 ， 可 以 为 营销 部 门 节省 大 量 的 


资金 。 


























15.2.2 ”运行 成 本 
网 站 上 的 大 量 内 容 必 须 存 储 在 某 个 地 方 ， 通 常 来 说 其 实 就 是 云 服务 器 上 大 量 的 硬盘 。 硬 盘 
要 花 钱 ， 向 云端 传输 和 下 载 数据 也 要 花 钱 ， 租 用 (或 建立 并 运营 ) 数据 中 心 和 带宽 还 是 要 
花 钱 。 即 使 云 技术 已 经 标准 化 且 其 费用 在 大 幅 下 降 ， 带 宽 和 存储 仍然 是 大 公司 面临 的 重要 
财务 挑战 。 









































2015 年 ，Netflix 宣布 开始 调整 其 视频 疲 压 缩 技 术 ， 要 根据 内 容 本 身 的 噪声 来 决定 视频 使 用 
哪 种 压缩 算法 。 此 举 旨 在 节省 公司 的 大 量 人 带宽 成 本 ， 同 时 最 大 限度 地 利用 各 种 特定 设备 的 
性 能 。 








同样 在 2015 年 ，Facebook 公布 了 其 提供 图 像 预览 服务 的 细节 ， 每 幅 图 像 的 预览 只 有 200 
字 节 。 考 虑 到 社交 媒体 网 络 每 天 传输 的 图 像 的 数量 ， 这 对 他 们 来 说 是 一 个 很 大 的 成 功 ， 特 
别 是 对 使 用 2G 设备 的 用 户 来 说 。 


要 理解 这 一 点 不 需要 你 学 过 高 等 数学 : 数据 量 更 小 ， 就 意味 着 更 小 的 出 站 流量 成 本 、 更 小 
的 入 站 流量 成 本 以 及 更 小 的 存储 成 本 。 
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15.2.3 ”提前 规划 

网 页 正在 变 得 越 来 越 大 。 自 2011 年 以 来 ，HTTPArchive 这 个 独立 网 站 就 一 直 在 对 排名 前 
1000 位 的 网 站 进行 下 载 、 编 目 、 汇 总 统计 的 工作 。 在 分 析 过 程 中 得 到 的 一 个 很 有 趣 的 统 
计数 据 是 网 页 的 平均 大 小 。 该 统计 对 显示 页 面 信息 需 要 的 字 节 数 进 行 了 汇总 ， 其 中 包括 
JavaScript、HIML、CSS、JPG 和 视频 文件 的 大 小 。 统 计 显示 ， 页 面 平均 大 小 在 2013 年 增 
长 了 24%， 达 到 了 1.5 MB ， 而 到 2015 年 则 变 成 了 2 MB。 


网 页 之 所 以 一 直 在 变 大 ， 其 中 一 个 原因 是 它们 包含 的 图 像 越 来 越 多 ， 同 时 每 幅 图 像 也 变 得 越 
来 越 大 。 此 外 ， 由 于 网 页 变 得 越 来 越 复杂 ， 因 此 网 页 中 包含 的 代码 也 越 来 越 多 。 对 2G 用 户 
来 说 ， 这 一 问题 正 变 得 越 来 越 突出 。 为 了 解决 这 一 问题 ， 谷 歌 这 样 的 大 公司 推出 了 移动 页 面 
加 速 (Accelerated Mobile Pages，AMP) 这 一 全 新 的 框架 ， 专 门 用 来 减 小 站 点 加 载 时 依赖 的 
图 形 、 图 像 文 件 的 大 小 ， 在 带宽 有 限 的 情况 下 为 用 户 提供 更 精简 、 加 载 速度 更 快 的 内 容 。 


15.3 ”让 用 户 的 生活 更 美好 更 便宜 


移动 设备 已 成 为 现代 生活 中 很 重要 的 一 部 分 。 想 到 用 户 的 体验 是 如 此 严重 地 依赖 于 商品 目 
录 的 图 像 是 以 多 快 的 速度 从 服务 器 端 传输 到 用 户 端 ， 真 让 人 感慨 。 


当 我 们 试图 降低 出 站 流量 的 成 本 时 ， 用 户 也 在 想 着 降低 入 站 流量 的 成 本 。 我 们 必须 清楚 : 
一 切 都 是 需要 用 户 支付 费用 的 。 他 们 中 的 大 多 数 人 要 为 数据 付费 ， 以 兆 字 节 为 单位 ， 并 且 
付费 惊人 。 


mobiForge 在 2013 年 进行 了 一 项 小 型 的 数据 分 析 ， 显 示 了 使 用 高 速 数 据 套 餐 的 成 本 。 当 
时 ，AT&T 的 漫游 资费 为 12 美元 /MB， 浏 览 microsoft.com 的 用 户 平均 每 次 需要 支付 17.5 
美元 给 AT&T。 



















































































我 们 不 仅 要 考虑 金钱 成 本 ， 还 要 考虑 电池 的 开销 。 连 接 速 度 较 慢 的 用 户 在 下 载 同 样 的 内 容 
时 需要 的 时 间 也 较 长 ， 这 就 意味 着 使 用 电池 的 时 间 也 要 比 连接 速度 快 的 用 户 长 。 结 果 就 
是 ， 连 接 较 慢 时 ， 用 户 消耗 电池 电量 的 速度 变 快 了 。 


数据 压缩 与 这 两 个 问题 都 直接 相关 。 在 连接 速度 同样 慢 的 情况 下 ， 文 件 越 小 就 意味 着 下 载 
需要 的 时 间 会 越 得， 消耗 的 电量 也 会 越 少 。 最 终 的 结果 就 是 ， 用 户 能 快速 看 到 商品 的 图 像 。 


15.4 对 下 一 步 技 术 的 思考 


如 有 果 你 很 幸运 ， 能 生活 在 一 个 网 络 连 接 状 态 很 好 的 国家 ， 那 么 蕉 喜 你 ! 很 有 可 能 你 在 为 一 
个 相当 不 错 的 移动 连接 网 络 支付 着 很 合理 的 费用 。 然 而 ， 从 世界 范围 来 看 ， 情 况 并 非 如 
此 ， 更 多 的 人 在 使 用 着 连接 状况 糟糕 的 网 络 。 展 望 未 来 ， 移 动 计算 的 明天 将 由 首次 使 用 移 
动 网 络 的 50 亿 人 以 及 他 们 使 用 的 移动 网 络 的 质量 决定 。 
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15.4.1 未 来 的 50 亿 用 户 

现在 全 球 大 约 有 74 亿 人 ， 其 中 大 约 有 20 亿 人 是 互联 网 用 户 。 其 余 的 大 部 分 人 则 生活 在 互 
联网 连接 快速 发 展 的 国家 。 这 意味 着 ， 未 来 你 的 用 户 的 最 大 来 源 是 亚洲 和 非洲 的 新 兴 
场 。 过 去 10 年 移动 计算 技术 的 快速 发 展 告诉 我 们 ， 下 一 个 10 亿 用 户 将 第 一 次 主要 是 通过 
移动 电话 ， 而 不 是 台式 计算 机 或 便携 式 计算 机 接 入 网 络 。 


























Eric Schmidt 和 Jared Cohen 在 The New Digital 4ge 一 书 中 很 好 地 阐述 了 这 一 主题 。 





在 非洲 已 有 超过 6.5 亿 的 手机 用 户 ， 而 在 亚洲 手机 用 户 的 数量 已 接近 30 亿 。 他 
们 中 大 多 数 人 使 用 的 是 只 有 基本 功能 电话 和 短信 一 一 的 手机 ， 这 主要 因为 他 
们 所 在 国家 的 数据 服务 费用 十 分 昂贵 ， 即 使 是 那些 买 得 起 具有 网 络 功能 的 手机 或 
智能 手机 的 人 ， 也 负担 不 起 数据 服务 的 费用 。 这 种 状况 将 来 肯定 会 改变 ， 一 旦 这 
种 改变 发 生 ， 这 些 人 就 会 深 深 受 益 于 智能 手机 革命 。 


15.4.2 ”移动 网 络 

在 这 些 具有 高 潜力 的 国家 建立 网 络 并 不 便宜 。 考 虑 到 Verizon 只 是 将 其 网 络 升 级 到 4G 就 
要 花费 500 亿美 元 ， 因 此 为 这 么 庞大 的 人 口 建 立 一 个 全 新 的 网 络 ， 其 成 本 肯定 会 是 天 文 数 
字 。 同 时 由 于 牵涉 政府 ， 这 一 费用 通常 还 会 膨胀 (对 政府 和 电信 公司 来 说 ， 这 样 的 情况 很 
常见 ) ， 而 这 又 常常 会 导致 所 有 的 成 本 转嫁 给 终端 用 户 。 


在 过 去 的 几 年 里 ， 全 世界 的 网 络 速度 都 有 了 很 大 的 提高 。 然 而 ， 同 时 还 要 看 到 这 种 改进 在 
数量 上 或 地 理 位 置 上 不 平衡 。Google Analytics 有 一 组 奇妙 的 图 表 展 示 了 世界 上 网 络 连 接 的 
趋势 。 从 中 可 以 很 容易 地 看 出 ， 改 进 的 想法 并 非 一 成 不 变 。 


简 而 言 之 ， 移 动 网 络 的 速度 仍然 会 继续 提高 ， 尽 管 提 高 的 速度 会 比较 慢 ， 在 各 地 也 不 均 
衡 ， 而 且 花 费 巨 大 。 如 有 果 你 期 待 移动 网 络 突 然 变 得 更 快 ， 很 可 能 就 需要 找 一 把 舒适 的 椅子 
慢 慢 坐 着 等 待 。 


例如 ，2G 网 络 的 传输 速度 大 约 为 0.021 MB/s， 而 GZIP 的 压缩 速度 则 可 达 61 MB/s， 即 使 
GZIP 的 压缩 速度 降 为 原来 的 十 分 之 一 ， 压 缩 1 MB 的 速度 仍然 比 通过 网 络 传 输 要 快 。 本 书 
作者 柯 尔 特 对 这 些 数据 的 分 析 表 明 ， 与 投入 数 百 万 美元 升级 网 络 硬件 相 比 ， 投 资 更 好 的 压 
缩 解压 编 解码 器 要 划算 得 多 。 


内 一 一 
15.5 “开始 行动 
到 这 里 ， 画 面 应 该 已 经 相当 清晰 了 。 下 一 次 大 规模 的 计算 革命 很 有 可 能 发 生 在 人 口 众多 的 
地 区 ， 这 些 地 区 的 人 不 是 很 富裕 ， 这 就 意味 着 他 们 在 选择 移动 硬件 和 手机 供应 商 时 倾向 于 
选择 较 慢 的 硬件 和 网 络 。 
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但 他 们 同样 也 有 对 快速 传输 数据 的 需求 ， 而 且 开 发 人 员 之 间 同 样 会 为 拉拢 这 些 用 户 而 觉 争 。 
移动 计算 的 趋势 仍 会 继续 ， 而 移动 应 用 程序 的 平均 数据 成 本 也 会 继续 亏 升 。 虽 然 他 们 玩 的 
仍然 是 追赶 游戏 ， 但 他 们 已 然 远 远 落 后 。 发 送 25 个 缩 略 图 或 者 加 载 满 页 有 图 片 的 新 闻 对 他 
们 来 说 成 本 太 高 ， 加 载 也 太 慢 ， 这 会 导致 他 们 放弃 缓慢 的 体验 而 去 追求 更 快 的 体验 。 

2015 年 这 一 问题 是 如 此 重要 ， 以 至 于 像 Facebook 这 样 大 的 开发 公司 推出 了 精简 的 、2G 友 
好 的 版 本 ， 以 减少 在 这 一 新 兴 移 动 市 场 中 获取 用 户 的 障碍 。 

作为 开发 人 员 ， 你 既 不 能 真正 控制 网 络 ， 也 不 能 控制 硬件 。 你 唯一 能 控制 的 只 有 数据 ， 你 
可 以 做 大 量 工作 ， 以 确保 数据 被 压缩 得 很 小 ， 这 样 它们 就 能 以 较 高 的 质量 、 较 快 的 速度 传 
输 给 用 户 ， 从 而 让 用 户 获得 正常 的 计算 体验 ， 并 且 一 直 是 你 的 应 用 程序 的 忠实 用 户 。 




















那 还 等 什么 呢 ? 
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7-Zip 

一 种 拥有 极 高 压缩 比 的 压缩 软件 。 
alpha 混合 (alpha blending) 

将 图 像 与 背景 全 加 从 而 产生 部 分 或 者 完全 透明 效果 的 过 程 。 




















alpha 通道 (alpha channel) 
除 红 、 绿 、 蓝 这 3 种 颜色 通道 之 外 的 附加 通道 ， 用 来 表示 像素 的 透明 度 ， 其 取 值 范围 为 0~1。 


























alpha 透明 度 (alpha transparency) 
alpha 通道 中 传输 的 像素 透明 度 值 。 



































BMP 

一 种 位 图 文件 格式 ， 位 图 文件 是 有 红 、 绿 、 蓝 这 3 种 颜色 通道 的 简单 光栅 编码 图 像 文件 。 
BSON 

JSON 序列 化 格式 的 二 进 制版 本 。 

BZIP/BZIP2 

使 用 伯 罗 斯 - 惠 勒 变换 压缩 文件 的 免费 开源 文件 压缩 程序 。 





Cap’n Proto 
一 种 二 进 制 序列 化 格式 。 














DEFLATE 
种 利用 LZ 算法 和 统计 编码 来 实现 压缩 的 流行 算法 。 
Flatbuffers 




















一 个 高 效 的 开源 跨 平台 序列 化 库 ， 由 谷歌 开发 ， 用 于 游戏 及 其 他 性 能 关键 的 应 用 程 


GIF 
一 种 图 像 压 缩 格式 ， 以 支持 alpha 透明 度 且 广泛 用 作 动 态 图 像 而 闻名 。 





并 
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GZIP (GNU zip ) 
互联 网 上 广泛 使 用 的 不 受 专利 保护 的 压缩 程序 。 


了 .264 

一 种 视频 编码 格式 ， 是 目前 最 常用 的 录制 、 压 缩 和 分 发 视频 内 容 的 格式 之 一 。H.264 因 其 是 蓝光 光盘 和 视频 
流 的 编码 标准 之 一 而 广为人知 ， 该 格式 已 申请 专利 保护 。 从 严格 的 数学 意义 来 说 ，H.264 通常 用 于 有 损 数据 
压缩 ， 尽 管 损失 量 有 时 可 能 让 人 难以 察觉 。 当 然 ，H.264 格式 也 可 以 用 来 创建 真正 的 无 损 数据 压缩 ， 例 如 ， 
在 有 损 编 码 的 图 片 中 设置 局 部 的 无 损 编码 区 域 ， 或 者 是 支持 完全 无 损 编 码 这 种 罕见 情况 。 


HTTP 协议 栈 (HTTP protocol stack) 
组 成 超 文本 传输 协议 (HyperText Transport Protocol，HTTP) 的 一 组 协议 。 



























































ITU 
国际 电信 联盟 (International Telecommunication Union) 的 简称 。 




















JPG/JPEG 

广泛 应 用 于 数字 图 像 领 域 的 有 损 数据 压缩 格式 。 

JSON 

JavaScript 对 象 表示 法 (JSON) 是 一 种 数据 交换 格式 ， 除 了 便于 计算 机 解析 和 生成 之 外 ， 同 样 便于 人 类 读 写 。 
LZ77、LZ78 





通过 引用 未 压缩 数据 流 中 先前 存在 的 数据 的 单个 副本 来 替换 重复 出 现 的 数据 来 实现 压缩 的 一 系列 算法 。 其 
他 的 实现 包括 LZFSE、LZHAM 和 LZTurbo。 











LZA 
基于 L277 算法 的 文档 压缩 工具 。 
LZMA 
基于 LZ77 算法 的 文档 压缩 工具 。 
LZ 与 LZW 算法 (Lempel-Ziv and Lempel-Ziv-Welch algorithms) 
一 系列 从 数据 流 找 出 分 词 (tokenizing data streams) 的 无 损 算法 。 
详 见 第 7 章 。 

MSGPACK 

一 种 小 而 快 的 二 进 制 序列 化 格式 。 



































Mumbo jumbo 


斐 波 那 契 编 码 里 的 内 容 。 


n 元 语法 (n-grams) 
给 定 文本 或 语音 中 连续 出 现 的 n 个 语词 。 








Protocol buffers, protobuffs 
谷歌 公司 开发 的 与 语言 和 平台 无 关 的 、 可 扩展 的 、 用 于 序列 化 结构 数据 的 格式 。 
Rate 

每 个 符号 的 平均 炳 。 


tANS 

Jarek Duda 在 论文 Asymmetric Numeral Systems: Entropy Coding Combining Speed of Huffinan Coding with Compression 
Rate of Arithmetic Coding 中 描述 的 一 种 不 对 称 数字 系统 或 算术 数字 系统 (arithmetic numerical systems) 的 变 体 。 
详 见 第 5 章 。 
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XML 
XML 代表 可 扩展 标记 语言 ， 通 过 定义 一 组 规则 将 文档 编码 为 人 和 机 器 都 可 读 的 格式 。 











XOR 
异 或 ， 参 见 词 条 按 位 异 或 
ZIP 


一 种 支持 无 损 数据 压缩 的 文件 格式 ， 它 不 是 压缩 算法 。 


按 位 异 或 运算 (bitwise exclusive OR, XOR) 

其 中 的 按 位 (bitwise) 是 指 对 每 位 的 操作 都 是 独立 的 ， 异 或 (exclusive OR) 则 是 一 种 逻辑 运算 : 当 且 仅 当 
两 个 输入 相 异 ， 即 其 中 一 个 为 真 男 外 一 个 为 假 时 ， 输 出 才 为 真 。 

编 解 码 器 (codec) 

Codec 是 coder-decoder 的 缩写 ， 是 能 够 对 数字 数据 流 或 信号 进行 编码 或 解码 的 设备 或 计算 机 程序 。 

编码 理论 (coding theory) 

研究 编码 方法 的 科学 ， 以 提高 在 噪声 信道 上 进行 数据 通信 的 效率 ， 并 降低 错误 率 ， 从 而 最 大 限度 地 利用 信 
道 以 接近 信道 容量 。 编 码 可 大 致 分 为 两 类 : 数据 压缩 ( 信 源 编码 ，source coding) 与 纠 错 技术 (信道 编码 ， 
channel coding) 。 加 密 算法 则 是 信息 论 中 的 第 三 类 编码 。 

编码 器 (coder) 

见 词 条 编码 器 (encoder)。 

编码 器 (encoder) 

压缩 软件 的 一 部 分 ， 负 责 将 源 信息 转换 为 压缩 数据 
变 长 编码 (variable-length codes，VLC) 

使 用 不 同 长 度 码 字 的 编码 方法 ,一 般 来 说 ， 最 短 的 码 字 被 分 配给 数据 集中 最 常见 的 符号 。 


详 见 第 4 章 。 















































NS 


式 。 





伯 罗 斯 - 惠 勒 变换 (Burrows-Wheeler transform, BWT) 
也 称 为 分 块 排序 压缩 (block-sorting compression) ， 它 是 一 种 可 逆 变 换 ， 其 做 法 是 将 字符 串 重新 排列 ， 使 相 
同 的 字符 聚 在 一 起 。 


详 见 第 8 章 。 




















部 分 匹配 预测 算法 (Prediction by Partial Matching，PPMD) 
一 种 基于 马尔 可 夫 链 的 算法 ， 有 多 种 变 体 ， 包 括 PPM*、PPMD 和 PPMZ。 


详 见 第 9 章 。 





程序 综合 (program synthesis ) 
自动 生成 满足 一 组 特定 要 求 的 程序 。 


词典 顺序 (lexicographic order) 
在 词典 中 ， 词 条 的 顺序 是 根据 其 组 成 字母 的 字母 顺序 排列 的 。 




















错误 纠正 (error correction ) 
将 代码 附加 到 信息 内 容 后 ， 以 便 检测 和 纠正 数据 传输 中 的 错误 。 错 误 检 测 和 纠 错 码 提高 了 信息 的 可 靠 性 ， 
使 其 更 能 够 适应 噪声 传输 环境 。 错 误 纠 正 与 数据 压缩 是 正 交 的 。 


单词 查找 树 (trie) 
在 计算 机 科学 中 ， 单 词 查 找 树 又 被 称 为 “数字 树 ”(digital tree) ， 有 时 也 被 称 为 “基数 树 ”(radix tree) 或 
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“前 级 树 ”(prefix tree， 因 为 可 以 通过 前 绥 去 查找 ) ， 是 一 种 用 于 存储 动态 集 或 关联 数组 (其 键 通 常 是 字符 
串 ) 的 有 序 树 结构 。 

定量 化 (quantification) 

把 人 类 的 感官 观察 和 经 验 映 射 成 一 组 数值 的 计数 和 测量 行为 。 例 如 ， 用 分 贝 表 示 音 乐 会 上 的 噪声 音量 。 
多 上 下 文 编 码 算法 (multicontext coders ) 

将 多 个 符号 和 统计 表 或 者 模型 结合 在 一 起 的 算法 ， 以 便 确定 编码 下 一 个 符号 所 需 的 最 小 二 进 制 位 数 。 
详 见 第 9 章 。 

多 重 集 合 (multiset) 

是 指 同一 元 素 多 次 出 现 的 集合 。 

二 分 查找 (binary search) 

一 种 在 有 序 的 数组 中 查找 目标 值 的 算法 。 

二 进 制 计数 系统 (binary or base 2 number system) 


一 种 仅 使 用 数字 0 和 1 表示 数值 的 方式 ， 数 值 中 的 每 一 位 都 是 2 的 款 ， 例 如 十 进 制 数值 $ 的 二 进 制 表示 为 
101， 这 是 因为 2+2 =5。 












































二 进 制 删除 信道 (binary erasure channel) 

一 种 用 于 信息 论 分 析 的 通信 信道 模型 ， 其 背后 的 思想 是 一 个 二 进 制 位 永远 不 会 错 ， 它 要 么 存在 且 正 确 ， 要 
么 就 是 被 “删除 ”了 。 

非 对 称 数字 系统 (asymmetric numeral systetms，ANS ) 

统计 压缩 的 一 种 现代 变 体 ， 在 早期 已 显示 出 接近 信 压 缩 的 前 景 ， 其 性 能 则 可 与 哈 夫 曼 编 码 相 媲 


详 第 5 章 。 
非 奇 异 码 (nonsingular codes) 
指 在 信 源 编码 中 ， 所 有 信 源 符号 都 映射 到 不 同 的 非 空位 序列 ( 码 字 )。 


分 块 (blocking ) 
为 了 更 好 地 压缩 而 将 一 组 数据 分 为 更 小 的 “ 块 ” 的 行为 。 


分 块 排序 压缩 (block sorting compression) 
能 够 高 效 完成 伯 罗 斯 - 惠 勒 变换 (Burrows-Wheeler transform) 的 应 用 程序 名 称 ， 该 程序 先 将 数据 流 分 块 ， 
然后 对 每 块 数据 而 非 对 整个 数据 流 进行 伯 罗 斯 - 惠 勒 变换 。 


分 组 (grouping) 
在 数据 压缩 领域 ， 指 的 是 将 二 进 制 位 数 分 配给 一 组 符号 而 不 是 单独 的 符号 。 例 如 ， 在 处 理 文本 时 ， 我 们 可 
以 对 100 个 最 常见 的 单词 进行 编码 。 找 出 要 分 组 的 字符 串 或 子 字 符 串 本 身 就 是 一 个 挑战 。 


分 组 码 (block codes ) 
任何 将 数据 分 块 编码 且 具 有 纠 错 功能 的 编码 方法 。 


概率 分 布 (probability distribution ) 

一 种 统计 函数 ， 用 于 描述 随机 变量 所 有 可 能 的 取 值 范围 以 及 取 值 的 可 能 性 。 该 取 值 范围 会 介 于 统计 上 可 能 
的 最 大 值 与 最 小 值 之 间 ， 但 出 现在 概率 分 布 图 上 的 可 能 值 则 取决 于 众多 因素 ， 包 括 分 布 平均 值 、 标 准 偏差 
和 偏 态 ( 偏 态 请 参阅 Investopedia 网 站 上 的 文章 Skewness)。 
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归 一 化 (normalization) 


将 不 同 数值 范围 的 值 调整 为 概念 上 相同 的 范围 。 
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哈 夫 曼 编 码 (Huffman coding) 
一 种 基于 前 级 的 无 损 数 据 压缩 编码 。 


详 见 第 5 章 。 





行程 编码 (run-length encoding，RLE) 
RLE 充分 利用 来 数据 流 中 存在 的 相同 符号 连续 出 现 的 现象 ， 并 使 用 由 符号 值 与 重复 次 数组 成 的 元 组 来 代 赫 
连续 相同 符号 构成 的 “行程 ”(run) 实现 压缩 。 


详 见 第 8 章 。 

















互信 息 (mutual information ) 


是 对 两 个 随机 变量 之 间 共 有 信息 的 度量 。 

加 密 算法 (cryptographic algorithms) 

为 了 使 内 容 保密 、 传 输 更 安全 而 对 信息 进行 编码 的 算法 。 

键 值 对 (key-value pairs) 

将 数据 表示 为 成 对 的 集合 ， 例 如 ，[ 词语 , 定义] 或 者 [ 行 , 值 ]。 


解码 器 (decoder) 
压缩 软件 的 一 部 分 ， 负 责 将 压缩 后 的 数据 流转 换 为 未 压缩 的 数据 。 











纠 错 码 (error-correcting code) 

附加 到 信息 内 容 后 的 代码 ， 可 以 简单 到 只 是 确认 信息 内 容 是 正确 的 ， 也 可 以 复杂 到 足以 “修复 ”其 中 的 错误 。 
局 部 偏 态 (locality-dependent skewing) 

这 个 词 是 我 们 自 造 的 ， 想 表达 的 意思 是 ， 在 数据 流 的 不 同位 置 某 个 字符 出 现 的 频率 很 不 相同 。 

卷 积 码 (convolutional code) 

一 种 用 于 提高 数据 传输 可 靠 性 的 纠 错 码 。 

克 劳 德 . 香农 (Claude Shannon) 

美国 数学 家 ， 被 认为 是 “信息 论 之 父 ”， 也 是 这 本 书 能 够 存在 的 原因 。 因 此 ， 不 妨 读 一 读 维基 百科 上 介绍 他 
的 文章 ， 看 看 他 怎样 让 我 们 的 生活 变 得 一 团 粳 。 

拉 普 拉 斯 估计 (Laplace estimator) 

一 种 计算 公式 ， 用 于 估算 观察 值 很 少时 或 在 (有限) 样本 数据 中 根本 未 观察 到 的 事件 的 概率 。 









































量化 (quantization) 


将 连续 值 (如 实数 ) 强制 转换 为 相对 较 小 的 离散 值 (如 整数 ) 的 过 程 。 
量子 位 (Qbit 或 qubit) 
Qbit 或 qubit 是 quantum bit 的 缩写 ， 量 子 位 是 量子 计算 机 中 信息 的 基本 单位 ， 也 用 来 表示 量 极 少 的 东西 。 
列表 译 码 (list decoding) 
其 背后 的 主要 思想 是 ， 解 码 算法 并 非 只 输出 单个 可 能 的 消息 ， 而 是 输出 可 能 的 消息 列表 ， 其 中 包含 正确 的 
消息 。 与 唯一 可 译 码 相 比 ， 这 样 就 能 够 处 理 更 多 的 错误 。 

逻辑 综合 (logic synthesis) 

在 电子 学 中 ， 将 所 需要 电路 行为 的 抽象 形式 转换 为 用 逻辑 门 来 设计 实现 的 过 程 。 

马尔 可 夫 链 (Markov chain) 
以 俄罗斯 数学 家 安 德 烈 :马尔 可 夫 命名 的 一 种 随机 过 程 ， 可 以 从 状态 空间 中 的 一 个 状态 转移 为 另 一 个 状态 。 
该 过 程 必须 满足 如 下 性 质 ， 下 一 个 状态 的 概率 分 布 仅 取决 于 当前 状态 ， 而 与 之 前 的 状态 序列 无 关 ， 这 一 性 
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质 通 常 被 称 为 “无 记忆 性 ”。 
排列 (permutation) 
在 数学 中 ， 排 列 是 将 集合 中 的 所 有 元 素 重新 排 成 某 种 序列 或 顺序 的 行为 。 
前 移 编码 (move-to-front encoding, MTF) 
种 局 部 自 适 应 的 数据 转换 算法 。 
详 见 第 8 章 。 
前 缀 编码 (prefix code) 


如 果 字 符 集中 一 个 符号 对 应 的 码 字 不 是 其 他 任何 符号 对 应 码 字 的 前 级 ， 则 称 该 编码 为 前 级 编码 。 这 就 意味 
着 在 接收 到 完整 码 字 后 可 以 立即 解码 ， 前 绥 编 码 始终 是 非 奇异 的 且 是 唯一 可 译 的 。 





























前 缀 性 质 (prefix property) 
这 一 性 质 规定 在 将 某 个 码 字 分 配给 一 个 符号 后 ， 任 何其 他 码 字 都 不 能 够 以 该 码 字 开头 。 变 长 编码 必须 具备 
这 一 性 质 。 


区 间 编 码 (range coding) 
一 种 与 算术 编码 基本 相同 但 没有 专利 限制 的 算法 。 


宛 余 信息 (redundancy) 
去 掉 后 不 影响 意义 或 者 功能 的 词语 或 数据 ， 也 就 是 重复 或 多 余 的 信息 。 例 如 在 句子 “池塘 里 有 十 (10) 只 
网 ” 里 ,，“(10)” 就 是 见 余 的 。 


在 信息 论 中 ， 元 余 等 于 传输 消息 所 需 的 二 进 制 位 数 减 去 消息 中 实际 信息 的 二 进 制 位 数 。 


类 (entropy) 

参见 词 条 信息 炳 。 

上 下 文 模型 (context modeling) 

利用 与 一 段 数据 相关 的 多 个 信息 信号 来 推断 最 适合 应 用 于 其 上 的 压缩 算法 类 型 的 过 程 。 


上 下 文 压缩 方法 (contextual compressor) 

根据 当前 上 下 文中 输入 符号 的 概率 来 确定 输出 符号 的 压缩 方法 。 

详 见 第 8 章 。 

视频 编 解码 器 (video codec ) 

压缩 或 解压 缩 数字 视频 的 电子 电路 设备 或 软件 ， 能 够 将 原始 的 未 压缩 数字 视频 转换 为 压缩 格式 ， 也 能 够 将 
压缩 后 的 数据 转换 为 原始 的 数字 视频 。 在 视频 压缩 中 ,“ 编 解码 器 ”(codec) 是 “编码 器 ”(encoder) 与 
“解码 器 ”(decoder) 的 联合 ， 只 能 压缩 的 设备 通常 称 为 编码 器 ， 而 只 能 解压 缩 的 设备 则 称 为 解码 器 。 


数据 集 的 变化 范围 (dynamic range of data set) 
本 书 中 指 的 是 表示 数据 集中 的 每 个 值 所 需要 的 二 进 制 位 数 范围 。 


数据 流 (data stream) 
只 能 够 在 某 个 时 间 点 以 小 规模 形式 获取 ， 而 不 能 一 次 性 访问 每 个 部 分 的 数据 块 。 现 实生 活 中 的 示例 是 在 收 
音 机 前 昕 音乐 。 


数据 流 分 词 (tokenizing a stream ) 

为 数据 流 的 内 容 分 配 符号 。 例 如 ， 在 词法 分 析 中 ， 分 词 (tokenization) 是 将 文本 流 分 解 为 单词 、 短 语 、 符 
号 或 其 他 有 意义 的 元 素 ， 这 些 元 素 都 称 为 词 条 (tokens) 。 而 在 数据 压缩 中 ， 分 词 指 的 是 找到 为 数据 流 生 成 
理想 “单词 ”字典 的 最 佳 方式 。 
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数据 压缩 (data compression ) 














目 比 原 数据 流 更 少 的 二 进 制 位 数 来 表示 其 中 信息 的 方法 ， 例 如 将 “Rolling on the floor laughing”( 笑 得 在 地 
(这 也 有 瞳 








上 打滚 ) 缩写 为 “ROFL” 时 ， 就 将 原来 的 29 个 字符 压缩 为 4 个 字符 ， 节 省 了 86% 的 存储 空间 。 
示 了 知道 上 下 文 可 以 提高 压缩 率 的 事实 。) 


数据 转换 (transformation of data) 

在 数据 压缩 中 ， 数 据 转 换 指 的 是 在 不 改变 信息 内 容 的 情况 下 改变 数据 流 ， 使 其 更 容易 压缩 。 例 如 ， 对 数 
据 流 [123456,123457,123458] 而 言 ， 从 W 到 N+1 的 增 量 需要 的 位 数 就 要 比 N+1 少 ， 利 用 增 量 表 示 法 可 将 
[123456,123457,123458] 表示 为 [123456,1,1]。 不 过 为 给 定 的 数据 流 找 到 正确 的 转换 本 身 就 是 巨大 的 挑战 。 
算术 编码 (arithmetic coding) 
通常 ， 编 码 算法 用 较 少 的 位 存储 数据 中 的 常用 字符 ， 而 用 较 多 的 位 存储 不 常用 的 字符 ， 从 而 使 总 的 存储 位 
较 少 。 与 通常 的 编码 算法 不 同 ， 算 术 编 码 不 按 1:1 的 比例 为 每 个 字符 分 配 一 个 码 字 进行 编码 ， 而 是 将 整个 输 
入 流 从 一 组 符号 转换 为 一 个 长 度 通常 很 长 的 数值 ， 其 则 表示 与 整个 输入 流 真正 的 值 很 接近 的 真实 值 。 


详 见 第 5 章 。 




































































通道 (channel) 
信息 传输 的 途径 。 


通信 (communication ) 

两 个 或 两 个 以 上 的 参与 者 之 间 进 行 的 有 目的 的 信息 交换 活动 ， 要 传达 或 接受 的 信息 则 是 通过 由 符号 与 符号 
规则 组 成 的 共享 系统 来 传递 的 。 通 信 的 基本 问题 是 (接收 方 ) 如 何在 某 个 地 点 精确 或 近似 地 再 现 (发 送 方 ) 
在 另 一 个 地 点 传递 的 信息 。 


通用 编码 (universal code ) 
通过 将 每 个 整数 映射 为 唯一 的 二 进 制 编码 来 为 正 整 数 创建 变 长 编码 的 一 种 方法 。 一 般 来 说 ， 最 小 的 整数 被 
赋予 的 二 进 制 位 数 最 少 。 


统计 偏 度 (statistical skewing) 

在 概率 论 和 统计 学 中 ， 偏 度 是 度量 实 值 随 机 变量 相对 其 均值 而 言 概率 分 布 的 不 对 称 性 的 。 或 者 通俗 地 说 ， 偏 
度 就 是 度量 某 些 符号 比 其 他 符号 更 可 能 出 现 的 程度 。 例 如 ， 英 语 中 各 个 字母 的 出 现 是 偏 度 的， 字母 “e” 比 
字母 “q” 更 常见 。 对 数据 压缩 来 说 ， 出 现 偏 度 是 好 事 ， 一 些 数 据 转 换 操 作 符号 集 的 目的 就 是 为 了 增加 偏 度 。 























































































































统计 压缩 (statistical compression) 
根据 输入 符号 的 概率 来 确定 输出 符号 的 数据 压缩 技术 。 


详 见 第 5 章 。 





统一 码 (Unicode) 
Unicode 计算 机 科学 领域 里 的 一 项 行业 标准 ， 用 于 对 世界 上 大 多 数 书写 系统 中 的 字符 进行 一 致 的 编码 、 表 示 和 
处 理 。 最 新 版 本 的 Unicode 中 包含 的 字符 超过 120 000 个 ， 涵 盖 了 129 种 现代 的 和 历史 的 语言 以 及 多 个 符号 集 。 


唯一 可 译 码 (uniquely decodable codes) 
如 果 一 种 编码 的 扩展 是 非 奇 异 的 ， 那 么 这 种 编码 就 是 唯一 可 译 的 ， 这 也 就 意味 着 目标 符号 是 唯一 可 识别 的 。 


无 损 数据 压缩 (lossless data compression) 
即 在 压缩 过 程 中 不 丢失 任何 信息 的 数据 压缩 技术 ， 并 且 压 缩 后 的 数据 可 完整 准确 地 还 原 为 原始 数据 。 


线性 相关 (linear correlation ) 

一 种 通过 共 现 或 变化 模式 观察 到 的 两 个 事物 之 间 的 关系 或 联系 ， 如 果 其 中 一 个 发 生变 化 ， 则 另 一 个 也 会 相 
应 地 发 生 线性 变化 。 例 如 ， 如 果 气 温 升 高 ， 那 么 冰淇淋 的 销量 就 会 增加 。 最 重要 的 是 线性 相关 并 不 意味 着 
存在 因果 关系 。 
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香农 - 范 诺 编码 (Shannon-Fano coding) 

一 种 通过 一 组 符号 及 其 出 现 的 概率 (估算 出 来 的 或 测量 所 得 的 ) 来 构造 前 级 编码 的 技术 。 与 哈 夫 曼 编码 一 
样 ， 它 不 能 实现 尽 可 能 短 的 码 字 长 度 预 期 ， 在 这 个 意义 上 是 次 优 的 。 但 与 哈 夫 曼 编码 不 同 的 是 ， 它 能 确保 
所 有 的 码 字 长 度 与 其 理想 的 理论 值 之 差 控制 在 一 个 二 进 制 位 以 内 。 























信息 (information ) 
就 我 们 的 目的 而 言 ， 是 指 消息 (message) 的 内 容 。 信 息 可 以 被 编码 成 各 种 形式 以 供 传输 和 解释 〈 例 如 ， 信 
息 可 以 被 编码 成 符号 序列 或 通过 信号 序列 传输 ) 。 


信息 可 以 消除 不 确定 性 ， 事 件 的 不 确定 性 是 通过 其 发 生 的 概率 来 衡量 的 ， 并 且 与 发 生 的 概率 成 反比 。 一 个 
事件 的 不 确定 性 越 大 ， 就 需要 越 多 的 信息 来 消除 其 不 确定 性 。 





















































信息 论 (information theory) 
数学 、 电 子 工程 和 计算 机 科学 中 涉及 信息 的 量化 (quantification of information) 的 分 支 学 科 。 信 息 论 研究 信 
息 的 传递 、 处 理 、 利 用 和 提取 。 











信息 内 容 (information content) 
数据 流 中 包含 的 实际 信息 (与 噪声 相对 )。 参 见 词 条 信息 炳 。 


信息 (information entropy) 
在 消息 中 存储 或 传输 一 个 符号 所 需 的 平均 位 数 。 


详 见 第 3 章 。 








信 源 (sources ) 
能 够 对 消息 数据 进行 编码 并 通过 信道 向 一 个 或 多 个 信 宿 传输 信息 的 实体 。 任 何 能 够 产生 连续 消息 的 过 程 都 
可 称 为 信 源 ， 也 可 称 为 “发 送 者 ”(sender) 。 


序列 化 (serialization) 
把 对 象 或 数据 结构 转换 为 可 存储 或 可 传输 的 位 序列 的 过 程 。 这 意味 着 可 以 使 用 反 序列 化 来 重建 原始 对 象 。 














一 元 编码 (unary encoding) 
一 种 炉 编码 ， 在 这 种 编码 中 ， 自 然 数 n 有 两 种 表示 方法 ,一 种 是 用 nn 个 1 后面 加 一 个 0 来 表示 (这 里 ， 自 
然 数 被 理解 为 非 负 整 数 ) ， 另 一 种 则 是 用 n-1 个 1 后 面 加 一 个 0 来 表示 (这 里 ， 自 然 数 则 被 理解 为 严格 正 整 
数 ) 。 例 如 ，5 可 以 表示 为 111110 或 者 11110。 其 中 ，0 和 1 是 可 以 相互 交换 的 。 


依 词典 顺序 排列 (lexicographic permutation) 
将 字符 串 依 词典 顺序 重新 排列 使 得 相同 的 字符 聚 在 一 起 ， 参 见 词 条 伯 罗 斯 - 惠 勒 变换 。 


有 损 数据 压缩 (lossy data compression ) 
是 指 在 压缩 过 程 中 会 丢失 一 些 信息 的 数据 压缩 技术 ， 原 始 数 据 无 法 完整 准确 地 还 原 。 有 损 数据 压缩 的 目标 
是 最 大 程度 地 在 压缩 数据 与 对 原始 数据 的 足够 保 真 之 间 寻 求 平衡 。 


有 限 状态 业 (finite state entropy，FSE 
非 对 称 数字 系统 的 具体 实现 ， 其 关注 重点 是 提高 性 能 。 

















































































































噪声 (noise) 


任何 对 信 源 与 信 宿 之 间 所 传输 的 信号 或 信息 的 干扰 都 可 称 为 噪声 。 


折纸 数理 学 (mathematical origami) 
从 数学 的 角度 研究 折纸 。 


直方 图 (histogram) 
由 很 多 矩形 组 成 的 图 ， 其 中 算 形 的 面积 与 变量 的 频率 成 正比 ， 而 其 宽度 则 等 于 类 间隔 。 
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字典 编码 (dictionary encoding ) 
基于 最 常见 的 符号 分 组 方法 转换 数据 流 的 过 程 。 


详 见 第 7 章 。 

字 节 码 (bytecode) 

由 紧 竣 的 数值 代码 组 成 的 指令 集 ， 专 为 软件 解释 器 高 效 执行 而 设计 。 
字面 值 词 条 (literal token) 











一 种 输出 词 条 ， 提 示 下 一 个 符号 应 从 字面 值 流 中 读 取 或 写 入 字面 值 流 。 


详 见 第 6 章 。 


1 


字面 值 流 (literal stream) 
只 包含 符号 的 字面 (未 编码 ) 值 的 数据 流 。 








详 见 第 6 章 。 


最 低 有 效 位 (least significant bit，LSB) 


二 进 制 数 中 权 值 最 小 的 位 。 例 如 ， 对 二 进 制 数 1000 来 说 ， 最 右边 的 0 就 是 最 低 有 效 位 。 


有 效 位 (most significant bit，MSB ) 

















高 
进 制 数 中 权 值 最 高 的 位 。 例 如 ， 对 二 进 制 数 1000 来 说 ， 最 左边 的 1 就 


是 最 高 有 效 位 。 
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关于 作者 

柯 尔 特 .麦克 安利 斯 (Colt McAnlis) 是 一 位 谷歌 开发 倡导 者 ， 专 注 于 游戏 开发 、 压 缩 技 
术 和 性 能 提升 。 在 此 之 前 ， 他 是 一 名 游戏 行业 的 图 形 程序 员 ， 曾 任职 于 暴雪 娱乐 、 微 软 
全 效 工作 室 (Ensemble) 和 岩石 壁画 公司 (PetroGlyph) '。 此 外 ,他 还 曾 担 任 南 卫 理 公 会 
大 学 Guildhall 学 院 的 兼职 教授 ， 优 达 学 城 (Udacity) 的 讲师 (两 次 )， 同 时 还 是 一 位 作 
者 。 最 近 ， 他 一 直 在 教授 实 癌 开发 人 员 程 序 性 能 提高 之 道 。 闲 上 暇 时 ， 他 将 时 间 花 在 抵御 
外 太空 巨型 蚂蚁 的 入 侵 上 。 他 在 网 络 上 发 布 了 大 量 的 作品 、 视 频 和 其 他 资源 ， 总 浏览 量 
超过 60 万 次 。 





亚 历 克 斯 . 海 坷 (Aleks Haecky) 同样 来 自 谷 歌 ， 他 是 一 位 开发 倡导 者 、 培 训 开 发 人 员 和 
作者 ， 致 力 于 弥合 专家 与 普通 读者 之 间 的 语言 渔 沟 。 他 曾 从 事 性 能 提升 、 文 档 编写 等 幕后 
工作 ， 在 优 达 学 城 、 谷 歌 开 发 者 频道 也 从 事 一 些 幕后 工作 。 此 外 ， 他 还 翻译 过 有 爬行 动物 学 
相关 的 图 书 ， 并 教 人 学 习 皮 划 艇 。 更 不 用 说 ， 他 正在 准备 写 下 一 部 伟大 的 美国 小 说 ， 并 在 
LinkedIn 上 深度 潜水 。 


关于 封面 


本 书 封 面 上 是 一 只 巴西 三 带 独 狂 。 





顾名思义 ， 这 种 犹 狼 为 巴西 所 特有 。 它 们 主要 生活 在 开阔 的 大 草原 和 干燥 的 林地 中 ， 喜 欢 
在 较 高 的 草丛 、 灌 木 从 和 荆棘 林 中 栖息 。 三 带 狐 钦 通 常 在 夜间 活动 ， 但 也 会 在 白天 丰 食 。 
它们 主要 以 蚂蚁 和 白蚁 为 食 ， 这 些 猎物 是 其 用 鼻子 靠近 地 面 闻 出 来 的 ， 它 们 能 半 到 20 悍 
米 深 的 土壤 中 隐藏 的 猎物 气味 。 三 带 犯 狂 擅 长 挖 地 洞 ， 但 是 它们 更 喜欢 在 灌木 从 里 而 不 是 
洞穴 里 休息 。 它 们 同样 不 依靠 挖 地 洞 来 防守 ， 而 是 滚 成 一 个 球 ， 外 面 只 剩 下 坚硬 的 护 甲 ， 
是 仅 有 的 两 种 能 缩 成 球形 的 独 狼 之 一 。 


狐 欠 通 常 是 独居 动物 ， 但 是 三 带 狐 欠 偶 尔 也 会 以 不 超过 3 个 成 员 的 小 家 庭 方式 群居 。 每 年 
的 10 月 至 来 年 的 1 月 为 交配 期 ， 在 交配 前 它们 会 有 短暂 的 求偶 行为 。 狐 狂 的 姓 娠 期 一 般 
为 120 天 左右 ， 每 胎 产 1 仔 。 刚 出 生 的 狂 狼 眼睛 是 闭 着 的 ， 护 甲 很 柔软 ,但 是 它 的 爪子 已 
经 发 育成 熟 ， 可 以 在 出 生 后 几 个 小 时 内 行走 并 滚动 成 一 个 球 。 在 过 去 的 10 年 里 ， 巴 西 三 
带 独 狼 的 数量 减少 了 30%。 在 自然 界 中 它们 仅 有 的 天 敌 是 成 年 美洲 狮 和 美洲 虎 ， 但 它们 面 
临 的 主要 威胁 是 栖息 地 的 破坏 ， 因 为 人 类 占领 了 它们 的 栖息 地 饲养 牲畜 。 


很 多 O’Reilly 的 图 书 封面 的 动物 濒临 灭绝 ， 但 它们 对 世界 很 重要 。 想 了 解 如 何 救 助 这 些 动 
物 的 更 多 信息 ， 请 访问 animals.oreilly.com。 
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